[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

Data Science/Statistics

[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

Tashapark 2024. 6. 11. 20:22

728x90

# 코드잇 데이터 사이언스 강의 듣는 중

<모집단 population>

- 원래 측정하고 싶던 전체 집단

- 예, 한국 대학생 전체

<표본 sample>

- 모집단에서 측정가능한 일부만 추출한 집단

- 예, 00대학교 심리학과 학생 전체 (200명)

<기술 통계 descriptive statistics>

- 데이터 요약 및 핵심적인 특징 파악

- 예, 평균, 편차, 분산, 상관 등

<추리 통계 inferential statistics>

- 표본을 기반으로 모집단을 추론하는 것

- 예, 회귀, 분산 등

+++ <변수 종류>

- 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?

- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함.

- 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음..

- 예전에는 불리안을 몰랐는데 이젠 디스크리트를 까먹네..

<데이터 모양>

1. 정규분포 nomal distribution

- 대체로 많은 데이터들이 정규분포를 따름.

- but, 아닌 경우도 많음. 예, 피크타임 분포는 점심과 저녁에 쌍봉임.

- 가운데를 기준으로 좌우 대칭

2. 왜도 skewness

- 우측 편포

= positively-skewed

- 데이터가 커지는 방향이라서

- 꼬리가 늘어진 방향으로 구분할 것.

- 좌측 편포 left-skewed: 는 위와 반대임.

- 왜도의 절댓값이 클수록 데이터가 더 많이 삐뚤어짐.

3. 첨도 kurtosis

- 첨도가 낮을 때는 그래프의 경사가 완만해지고,

- 높으면 뾰족해짐.

728x90

'Data Science > Statistics' 카테고리의 다른 글

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod() (3)	2024.06.12
[기초통계] 분산과 표준편차 (3)	2024.06.11
[Statistics] 군집 분석 cluster analysis, sns.clustermap() (3)	2024.06.05
[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap() (0)	2024.06.02
[Statistics] mean, median, Q1, Q3, outlier, mode, .describe() (2)	2024.06.02

현재글[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

Tasha's devlog

데이터 사이언티스트로의 이직을 위한 기술 블로그 💫🍀

Python, 노마드 코더, pandas, 노마드코더, 데이터 전처리, basic, 코코아톡 클론 코딩, 배열, yolo모델, EDA, 개발자북클럽, Jupyter notebook, java, 자바의 정석, seaborn, dataframe 인덱싱, CSS, 노개북, 개발자 북클럽, JS,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tasha's devlog