'Data Science/Statistics' 카테고리의 글 목록

[elice 통계] 추론 및 가설검정 (이산확률 분포)

*elice 강의안- 이항 분포가 정규분포로 넘어가는 과정도 볼 것. -> 동전던지기나 주사위 던지기로 생각하면 됨. -> 베르누이 실행은 그냥 경우의 수는 2개라고 생각하고 각각 독립이라서 각각의 확률이 p는 1-p가 됨. - 이항분포랑 정규분포는 이해하고 넘어가야 함!!- 갑자기 조합이 나오네..- 아 이게 조합이.. 기억이 잘 안나는데.. - 조합은 n개중에서 r개를 고르는 경우의 수 => 그니깐 위처럼 괄호 안의 위아래로 두는 것이 조합의 표기임.(n)(r) = n! / r!(n-r)! - ... 와 파스칼의 삼각형 처음 들어봤는데 직작에 알았으면 저거 썼을 텐데 싶다..- 아 이게 그니깐 2개 중 x개를 2개 골라야 하니깐 y는 0개 골라서 2C0- 2xy는 2개를 뽑는데 y는 1개고 - ..

Data Science/Statistics 2025.06.12

[elice 통계] 확률(사건/확률, 순열/조합, 조건부확률/독립, 확률분포)

*elice 강의안- 배반은 관계를 의미하는 것으로 a와 b는 상호배반이라고 주로 이야기함. - 재귀함수: 자기 자신을 호출하는 것 - 공리: 누구나 다 참으로 받아들이는 것- 숫자 간 가림막이 있다고 생각했을 때, 뽑힌 순서는 중요하지 않기 때문에 가림막의 개수에 따라서만 달라짐. - 위치는 상관이 없음. 어떻게든 3개만 뽑으면 되는 거라서- 색칠된 박스가 가림막이라고 생각하면 6개의 칸 중에서 3개의 가림막이 있다고 가정하는 것이 중복조합과 같음. - 결국 n+r-1Cr 이 서로 다른 n개의 대상 중 중복허을 허용해 r개를 순서 고려 없이 뽑는 경우를 의미함- 이산확률 변수인 경우 명확한 값이 있으니깐 확률 질량 함수가 됨. - 이항분포 특히 기억할 것. - 확률밀도함수에서는 구간에 대한 값을 가질 ..

Data Science/Statistics 2025.05.28

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

*elice 강의안- 수염의 길이로 데이터의 분포도 확인이 가능함. - 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..import numpy as np import pandas as pdimport matplotlib as plt# 데이터 불러오기mart = pd.read_csv("mart.csv")print(mart)# Q1.지역별로 선호하는 마트region_crosstab = pd.crosstab(mart["region"], mart["mart"])print(region_crosstab)# Q2. 가족구성원의 수별로 선호하는 마트famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])print(famnum_..

Data Science/Statistics 2025.05.24

[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표)

*elice 강의안 - 이미 통계에 많이 접한 사람들은 저런 낚는 용에 넘어가지 않음. - 모수는 다른 것이 될 수도 있지만, 중심위치와 퍼진 정도를 중요하게 생각함. - so, 양 극단(최대, 최소)를 빼고 평균을 내기도 함. - 새로 들어온 값 있을 때마다 다시 확인해야 하기 때문에 잘 사용하지 않음.- 특히, 데이터 값이 많을 수록 자주 사용하지 않음. - 최빈값은 넘파이에 없음. scipy의 stats를 가지고 와야 함. - stats.mode()import numpy as npfrom scipy import statscoffee = np.array([202, 177, 121, 148, 89, 121, 137, 158])# 최빈값 계산cf_mode = stats.mode(coffee)print(..

Data Science/Statistics 2025.05.23

[elice 통계] 자료의 형태, 범주형/수치형 자료

*elice 강의안 - pie차트랑 반대 - 줄기-잎 그림은 관측값의 개수가 많은 경우, 지나치게 흩어진 경우 효과적으로 나타내기가 어려움.- 금리에서 많이 쓴다고 함.. => 중복된 값 파악에 좋음- 계급의 폭은.. 개인차가 있음. 근데 거의 루트n+3으로 함- 사람들이 178, 179가 180으로 대답하는 경향이 있으면 180 구간의 값이 많아지기 때문에 이럴 때는 175-184 구간으로 나누는 것이 더 적절할 수 있음. - 줄기 기준으로 나눠서 끊어줌. 이건 개인이 선택할 수 있음. - 그림을 그려서 돌려놓으면 히스토그램과 유사한데, 히스토그램과 달리 개별 정보를 다 가지고 있음.

Data Science/Statistics 2025.05.21

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod()

# 코드잇 데이터 사이언스 강의 듣는 중 - . cumsum() --> cumulative sum 누적 합- 예를 들어, 수입의 누적 값을 확인하고 싶을 때 등에 쓸 수 있음. df['revenue_cumsum']= df['revenue'].cumsum()df - 진짜.. 너무 편한듯.. ㅎ - 플롯으로 변경 추이를 한 눈에 확인할 수도 있음. df.plot(x='month', y='revenue_cumsum') df.plot(x='month', y='revenue_cumsum', kind='bar') - . cumprod() --> cumulative product 누적 곱- 예를 들어, 연간 금리에 따른 만기액 같은 계산이 가능해짐. +..ㅎ 내가 진짜 학생 때 제일 싫어했던....

Data Science/Statistics 2024.06.12

[기초통계] 분산과 표준편차

# 코드잇 데이터 사이언스 강의 듣는 중 - 편차 제곱의 합의 평균 1) 편차의 합은 0이 되기 때문에 제곱해서 다 양수로 통일하는 것2) 편차가 큰 값들을 더 부각시키기 위함df['height'].var()#52.92330276553103 - 편차 제곱의 합의 평균에 루트를 씌운 것.- 분산을 구할 때 제곱을 했기 때문에 이것을 다시 원래의 단위로 맞춰 주는 것 df['height'].std()#7.2748403945056435 - but, 위의 공식은 모집단의 값을 구하는 공식이고, 표본을 구할 때는 값이 달라짐.+ 아 그냥.. 공식을 써주지.. 그래야 시그마랑 구분하자나.. --> n이 아닌 n-1로 나눠서 평균을 구하는 것- 표본은 결국 모집단을 추정하기 위함인데, - n으로 나누면 과소..

Data Science/Statistics 2024.06.11

[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

# 코드잇 데이터 사이언스 강의 듣는 중 - 원래 측정하고 싶던 전체 집단 - 예, 한국 대학생 전체 - 모집단에서 측정가능한 일부만 추출한 집단- 예, 00대학교 심리학과 학생 전체 (200명)- 데이터 요약 및 핵심적인 특징 파악- 예, 평균, 편차, 분산, 상관 등 statistics>- 표본을 기반으로 모집단을 추론하는 것- 예, 회귀, 분산 등 +++ - 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함. - 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음.. - 예전에는 불리안을 몰랐는데 이젠 디스크리트를..

Data Science/Statistics 2024.06.11

[Statistics] 군집 분석 cluster analysis, sns.clustermap()

# 코드잇 데이터 사이언스 강의 듣는 중 - 서로 관련이 있는 집단들을 묶어서 분석하는 것- sns.clustermap() - 강의에서는 상관이 있는 것들을 묶는 예제를 보여줬는데, 실제로는, 상관.... 보다는 변수들 간의 관계나 값의 분포 차이에 따라서 군집을 나눔. + 군집분석은 data driven 이기 때문에 일반화 하기가 어렵다는 문제가 있지만, 확진적 요인 분석 CFA 과 잠재 프로파일분석 LPA으로 논문을 썼기 때문에 흥미로운 결과를 많이 뽑아낼 수 있다고 생각하는 편이다. - 필요한 칼럼만 분리하고.interests = df.loc[:, 'History':'Pets']interests.head() - 상관을 아예 변수에 넣음.corr = interests.corr()corr - 역사..

Data Science/Statistics 2024.06.05

[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap()

# 코드잇 데이터 사이언스 강의 듣는 중 - 여러 상관 계수가 있지만, 피어슨 Pearson 상관 계수를 많이 씀. 1) 범위: -1 2) 피어슨 Pearson 상관 계수 = 0 --> 상관이 없음. 3) 피어슨 Pearson 상관 계수 = +- 1 --> 강한 상관4) 1 > 피어슨 Pearson 상관 계수 > 0 : 정적 상관; x가 커지면 y가 증가 5) -1 피어슨 Pearson 상관 계수 ++++ --> 피어슨 상관계수 --> x,y의 공분산 값을 각각의 표준편차의 곱으로 나눠준 것 공분산 covariance> --> 각 값의 편차끼리 곱한 값을 n수로 나누어 준 것으로 변수의 관계의 방향성과 강도를 측정할 때 사용 가능함. - 즉, 같이 움직이는 경향성임. 편..

Data Science/Statistics 2024.06.02

Tasha's devlog

Data Science/Statistics 13

티스토리툴바

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31