자신에게 친절할 것 :)

Statistics

[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

Tashapark 2024. 6. 11. 20:22
728x90

# 코드잇 데이터 사이언스 강의 듣는 중


 

<모집단 population>

- 원래 측정하고 싶던 전체 집단 

- 예, 한국 대학생 전체

 

<표본 sample>

- 모집단에서 측정가능한 일부만 추출한 집단

- 예, 00대학교 심리학과 학생 전체 (200명)


<기술 통계  descriptive statistics>

- 데이터 요약 및 핵심적인 특징 파악

- 예, 평균, 편차, 분산, 상관 등

 

<추리 통계 inferential statistics>

- 표본을 기반으로 모집단을 추론하는 것

- 예, 회귀, 분산 등

 

+++ <변수 종류>

- 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?

- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함. 

- 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음.. 

- 예전에는 불리안을 몰랐는데 이젠 디스크리트를 까먹네..

https://hutsoundbank.tistory.com/13

 

 


<데이터 모양>

 

1. 정규분포 nomal distribution

- 대체로 많은 데이터들이 정규분포를 따름.

- but, 아닌 경우도 많음. 예, 피크타임 분포는 점심과 저녁에 쌍봉임. 

- 가운데를 기준으로 좌우 대칭

 

 

 

 

 

 

 

2. 왜도 skewness

 

- 우측 편포 

= positively-skewed 

- 데이터가 커지는 방향이라서 

- 꼬리가 늘어진 방향으로 구분할 것. 

 

 

 

- 좌측 편포 left-skewed: 는 위와 반대임. 

 

 

- 왜도의 절댓값이 클수록 데이터가 더 많이 삐뚤어짐. 

 

 

 

 

 

 

 

3. 첨도 kurtosis

 

 

- 첨도가 낮을 때는 그래프의 경사가 완만해지고, 

- 높으면 뾰족해짐. 

728x90
반응형