[기초통계] 분산과 표준편차

Statistics

[기초통계] 분산과 표준편차

Tashapark 2024. 6. 11. 23:26

728x90

# 코드잇 데이터 사이언스 강의 듣는 중

<분산 variance>

- 편차 제곱의 합의 평균

1) 편차의 합은 0이 되기 때문에 제곱해서 다 양수로 통일하는 것

2) 편차가 큰 값들을 더 부각시키기 위함

df['height'].var()

#52.92330276553103

<표준편차 standard deviation>

- 편차 제곱의 합의 평균에 루트를 씌운 것.

- 분산을 구할 때 제곱을 했기 때문에 이것을 다시 원래의 단위로 맞춰 주는 것

df['height'].std()

#7.2748403945056435

- but, 위의 공식은 모집단의 값을 구하는 공식이고, 표본을 구할 때는 값이 달라짐.

+ 아 그냥.. 공식을 써주지.. 그래야 시그마랑 구분하자나..

--> n이 아닌 n-1로 나눠서 평균을 구하는 것

- 표본은 결국 모집단을 추정하기 위함인데,

- n으로 나누면 과소 추정을 할 수 있기 때문에, n-1로 나눈다고 설명하심.

+ 자유도로 설명하는 게 더 편하지 않나???

- 추정치이기 때문에 마지막 값은 이미 정해져있음.

- 즉, 우리가 구해야 할 값은 이미 정해져 있는데 예를 들어 대한민국 국민의 수는 정해져 있음.

- 우리가 표본을 통해서 추정할 때는 어떤 값이든 들어 갈 수 있는 것임 서울시민으로 추정할 수도, 강원도민일 수도, 둘을 합칠 수도 있음.

- but, 대한민국 국민의 수로 추정하지는 않음. 그것은 모집단 그 자체이니깐.

- 우리가 자유롭게 설정할 수 있는 값은 모집단을 제외한 n-1임

--> 나는 자유도 degree of freedom을 이렇게 이해하고 있는데.. 맞을 지는 모르겠음.

- .describe() 를 쓰면 std를 바로 확인 할 수 있음.

+ pandas와 numpy가 표본의 std를 구하는 n수가 다름!

--> pandas는 n-1 로 구하고, numpy는 n으로 구한다는데 크게 볼 때에는 큰 차이가 없지만,

정확도를 요구하는 논문이나 다른 계산을 위한 밑바탕이 될 때는 주의하는 것이 필요해 보임.

++ BUT, 모집단의 분산과 표본의 분산은 근데 사실 값이 .. 크게 달라질 수도 있음.

- n이 충분히 크다면 별 차이가 없겠지만 작으면,

728x90

'Statistics' 카테고리의 다른 글

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod() (2)	2024.06.12
[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양 (0)	2024.06.11
[Statistics] 군집 분석 cluster analysis, sns.clustermap() (3)	2024.06.05
[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap() (0)	2024.06.02
[Statistics] mean, median, Q1, Q3, outlier, mode, .describe() (2)	2024.06.02

현재글[기초통계] 분산과 표준편차

Tasha's devlog

데이터 사이언티스트로의 이직을 위한 기술 블로그 💫🍀

EDA, Jupyter notebook, CSS, 개발자북클럽, 배열, JS, 노마드코더, seaborn, 개발자 북클럽, 데이터 전처리, basic, java, pandas, 코코아톡 클론 코딩, yolo모델, Python, 노개북, 자바의 정석, dataframe 인덱싱, 노마드 코더,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tasha's devlog