DS가 되기 위한 여정 👩‍💻
728x90
반응형

Data Science/Statistics 12

[elice 통계] 확률

*elice 강의안- 배반은 관계를 의미하는 것으로 a와 b는 상호배반이라고 주로 이야기함. - 재귀함수: 자기 자신을 호출하는 것 - 공리: 누구나 다 참으로 받아들이는 것- 숫자 간 가림막이 있다고 생각했을 때, 뽑힌 순서는 중요하지 않기 때문에 가림막의 개수에 따라서만 달라짐. - 위치는 상관이 없음. 어떻게든 3개만 뽑으면 되는 거라서- 색칠된 박스가 가림막이라고 생각하면 6개의 칸 중에서 3개의 가림막이 있다고 가정하는 것이 중복조합과 같음. - 결국 n+r-1Cr 이 서로 다른 n개의 대상 중 중복허을 허용해 r개를 순서 고려 없이 뽑는 경우를 의미함

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

*elice 강의안- 수염의 길이로 데이터의 분포도 확인이 가능함. - 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..import numpy as np import pandas as pdimport matplotlib as plt# 데이터 불러오기mart = pd.read_csv("mart.csv")print(mart)# Q1.지역별로 선호하는 마트region_crosstab = pd.crosstab(mart["region"], mart["mart"])print(region_crosstab)# Q2. 가족구성원의 수별로 선호하는 마트famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])print(famnum_..

[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표)

*elice 강의안 - 이미 통계에 많이 접한 사람들은 저런 낚는 용에 넘어가지 않음. - 모수는 다른 것이 될 수도 있지만, 중심위치와 퍼진 정도를 중요하게 생각함. - so, 양 극단(최대, 최소)를 빼고 평균을 내기도 함. - 새로 들어온 값 있을 때마다 다시 확인해야 하기 때문에 잘 사용하지 않음.- 특히, 데이터 값이 많을 수록 자주 사용하지 않음. - 최빈값은 넘파이에 없음. scipy의 stats를 가지고 와야 함. - stats.mode()import numpy as npfrom scipy import statscoffee = np.array([202, 177, 121, 148, 89, 121, 137, 158])# 최빈값 계산cf_mode = stats.mode(coffee)print(..

[elice 통계] 자료의 형태, 범주형/수치형 자료

*elice 강의안 - pie차트랑 반대 - 줄기-잎 그림은 관측값의 개수가 많은 경우, 지나치게 흩어진 경우 효과적으로 나타내기가 어려움.- 금리에서 많이 쓴다고 함.. => 중복된 값 파악에 좋음- 계급의 폭은.. 개인차가 있음. 근데 거의 루트n+3으로 함- 사람들이 178, 179가 180으로 대답하는 경향이 있으면 180 구간의 값이 많아지기 때문에 이럴 때는 175-184 구간으로 나누는 것이 더 적절할 수 있음. - 줄기 기준으로 나눠서 끊어줌. 이건 개인이 선택할 수 있음. - 그림을 그려서 돌려놓으면 히스토그램과 유사한데, 히스토그램과 달리 개별 정보를 다 가지고 있음.

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod()

# 코드잇 데이터 사이언스 강의 듣는 중  - . cumsum() --> cumulative sum 누적 합- 예를 들어, 수입의 누적 값을 확인하고 싶을 때 등에 쓸 수 있음. df['revenue_cumsum']= df['revenue'].cumsum()df - 진짜.. 너무 편한듯.. ㅎ          - 플롯으로 변경 추이를 한 눈에 확인할 수도 있음. df.plot(x='month', y='revenue_cumsum') df.plot(x='month', y='revenue_cumsum', kind='bar') - . cumprod() --> cumulative  product 누적 곱- 예를 들어, 연간 금리에 따른 만기액 같은 계산이 가능해짐.  +..ㅎ 내가 진짜 학생 때 제일 싫어했던....

[기초통계] 분산과 표준편차

# 코드잇 데이터 사이언스 강의 듣는 중 - 편차 제곱의 합의 평균  1) 편차의 합은 0이 되기 때문에 제곱해서 다 양수로 통일하는 것2) 편차가 큰 값들을 더 부각시키기 위함df['height'].var()#52.92330276553103  - 편차 제곱의 합의 평균에 루트를 씌운 것.- 분산을 구할 때 제곱을 했기 때문에 이것을 다시 원래의 단위로 맞춰 주는 것 df['height'].std()#7.2748403945056435   - but, 위의 공식은 모집단의 값을 구하는 공식이고, 표본을 구할 때는 값이 달라짐.+ 아 그냥.. 공식을 써주지.. 그래야 시그마랑 구분하자나.. --> n이 아닌 n-1로 나눠서 평균을 구하는 것- 표본은 결국 모집단을 추정하기 위함인데, - n으로 나누면 과소..

[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

# 코드잇 데이터 사이언스 강의 듣는 중 - 원래 측정하고 싶던 전체 집단 - 예, 한국 대학생 전체  - 모집단에서 측정가능한 일부만 추출한 집단- 예, 00대학교 심리학과 학생 전체 (200명)- 데이터 요약 및 핵심적인 특징 파악- 예, 평균, 편차, 분산, 상관 등  statistics>- 표본을 기반으로 모집단을 추론하는 것- 예, 회귀, 분산 등 +++ - 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함. - 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음.. - 예전에는 불리안을 몰랐는데 이젠 디스크리트를..

[Statistics] 군집 분석 cluster analysis, sns.clustermap()

# 코드잇 데이터 사이언스 강의 듣는 중 - 서로 관련이 있는 집단들을  묶어서 분석하는 것- sns.clustermap() - 강의에서는 상관이 있는 것들을 묶는 예제를 보여줬는데, 실제로는, 상관.... 보다는 변수들 간의 관계나 값의 분포 차이에 따라서 군집을 나눔.  + 군집분석은 data driven 이기 때문에 일반화 하기가 어렵다는 문제가 있지만, 확진적 요인 분석 CFA 과 잠재 프로파일분석 LPA으로 논문을 썼기 때문에 흥미로운 결과를 많이 뽑아낼 수 있다고 생각하는 편이다.  - 필요한 칼럼만 분리하고.interests = df.loc[:, 'History':'Pets']interests.head() - 상관을 아예 변수에 넣음.corr = interests.corr()corr - 역사..

[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap()

# 코드잇 데이터 사이언스 강의 듣는 중  - 여러 상관 계수가 있지만, 피어슨 Pearson 상관 계수를 많이 씀. 1) 범위: -1 2)  피어슨 Pearson 상관 계수 = 0 --> 상관이 없음. 3)  피어슨 Pearson 상관 계수 = +- 1 --> 강한 상관4) 1 > 피어슨 Pearson 상관 계수 > 0 : 정적 상관; x가 커지면 y가 증가        5) -1 피어슨 Pearson 상관 계수        ++++ --> 피어슨 상관계수 --> x,y의 공분산 값을 각각의 표준편차의 곱으로 나눠준 것  공분산 covariance> --> 각 값의 편차끼리 곱한 값을 n수로 나누어 준 것으로 변수의 관계의 방향성과 강도를 측정할 때 사용 가능함.  - 즉, 같이 움직이는 경향성임. 편..

[Statistics] mean, median, Q1, Q3, outlier, mode, .describe()

# 코드잇 데이터 사이언스 강의 듣는 중 - data에 따라서 대표치를 어떤 것으로 볼 지가 달라짐.- outlier가 크면, median은 mean보다 outlier의 영향을 덜 받기 때문에 사용- but, median은 전체 값의 분포가 달라져도 같을 수 있지만, mean은 값에 영향을 받기 때문에 median이 다 같으면 mean 더 좋은 대표치가 됨.  --> numerical(수치형) data는 mean, median, mode를 구할 수 있음 - but categorical(범주형) data는 mean, median을 구할 수 없기에 mode가 대표치가 됨.  + 수치형 데이터는 1) 이산형데이터 (값이 정확히 떨어짐; 오늘 마신 아메의 갯수) 와2) 연속형 데이터 (값이 정확하지 않음; 추정..

728x90
반응형