DS가 되기 위한 여정 👩‍💻
728x90
반응형

Data Science/Statistics 13

[Statistics] mean, median, Q1, Q3, outlier, mode, .describe()

# 코드잇 데이터 사이언스 강의 듣는 중 - data에 따라서 대표치를 어떤 것으로 볼 지가 달라짐.- outlier가 크면, median은 mean보다 outlier의 영향을 덜 받기 때문에 사용- but, median은 전체 값의 분포가 달라져도 같을 수 있지만, mean은 값에 영향을 받기 때문에 median이 다 같으면 mean 더 좋은 대표치가 됨.  --> numerical(수치형) data는 mean, median, mode를 구할 수 있음 - but categorical(범주형) data는 mean, median을 구할 수 없기에 mode가 대표치가 됨.  + 수치형 데이터는 1) 이산형데이터 (값이 정확히 떨어짐; 오늘 마신 아메의 갯수) 와2) 연속형 데이터 (값이 정확하지 않음; 추정..

[Statistics] PDF 확률 밀도 함수, KDE kernel Density Estimation

# 코드잇 데이터 사이언스 강의 듣는 중  - 확률밀도함수: 값들이 어떻게 분포되어 있는지 보여주는 것. - 분포는 히스토그램과 비슷함. 히스토그램 막대를 무한으로 늘리면 나타나는 것과 비슷함. - but, 히스토그램은 각 구간마다 값이 몇 개 있는지 셌다면, PDF는 각 구간이 전체에서 차지하는 비중(확률)을 보는 것.   - 데이터 셋의 분포를 나타냄. - 특정 구간의 확률은 그래프 아래 그 구간의 면적과 동일함. - 그래프 아래의 모든 면적의 합 = 1 - 연속형 데이터에서 특정 값이 일어날 확률은 0%- 즉, 키가 174.5 일 확률은 0임. coz, 174.50000001 일 수도 있고, 몇 명을 모아도 저 값의 딱 떨어질 확률은 0에 가까움- 주사위 숫자나 동전 면의 확률과 달리,키, 몸무게,..

[통계와 시각화] 선/막대/원 그래프, 히스토그램, box plot, 산포도

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전과 이전 데이터 시각화 강의가 섞인 정리 - numpy처럼 matplotlib을 메소드로 쓸 수도 있지만, Pandas 플랏이 어차피 plt를 끌어다가 쓰는 것이라서 더 간단하게 사용가능. import pandas as pdimport matplotlib.pyplot as pltsales_df = pd.DataFrame({ 'quarter' : ['1Q', '2Q', '3Q', '4Q'], 'revenue' : [1360, 2650, 2070, 4150], 'cost' : [1240, 1970, 1750, 2760]})sales_df#plt plot을 따로 이용plt.plot(sales_df['qua..

728x90
반응형