# 코드잇 데이터 사이언스 강의 듣는 중
<모집단 population>
- 원래 측정하고 싶던 전체 집단
- 예, 한국 대학생 전체
<표본 sample>
- 모집단에서 측정가능한 일부만 추출한 집단
- 예, 00대학교 심리학과 학생 전체 (200명)
<기술 통계 descriptive statistics>
- 데이터 요약 및 핵심적인 특징 파악
- 예, 평균, 편차, 분산, 상관 등
<추리 통계 inferential statistics>
- 표본을 기반으로 모집단을 추론하는 것
- 예, 회귀, 분산 등
+++ <변수 종류>
- 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?
- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함.
- 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음..
- 예전에는 불리안을 몰랐는데 이젠 디스크리트를 까먹네..
<데이터 모양>
1. 정규분포 nomal distribution
- 대체로 많은 데이터들이 정규분포를 따름.
- but, 아닌 경우도 많음. 예, 피크타임 분포는 점심과 저녁에 쌍봉임.
- 가운데를 기준으로 좌우 대칭
2. 왜도 skewness
- 우측 편포
= positively-skewed
- 데이터가 커지는 방향이라서
- 꼬리가 늘어진 방향으로 구분할 것.
- 좌측 편포 left-skewed: 는 위와 반대임.
- 왜도의 절댓값이 클수록 데이터가 더 많이 삐뚤어짐.
3. 첨도 kurtosis
- 첨도가 낮을 때는 그래프의 경사가 완만해지고,
- 높으면 뾰족해짐.
'Statistics' 카테고리의 다른 글
[기초통계] 누적 값 계산하기, .cumsum(), .cumprod() (2) | 2024.06.12 |
---|---|
[기초통계] 분산과 표준편차 (2) | 2024.06.11 |
[Statistics] 군집 분석 cluster analysis, sns.clustermap() (2) | 2024.06.05 |
[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap() (0) | 2024.06.02 |
[Statistics] mean, median, Q1, Q3, outlier, mode, .describe() (2) | 2024.06.02 |