자신에게 친절할 것 :)
728x90
반응형

전체 글 116

[기초통계] 분산과 표준편차

# 코드잇 데이터 사이언스 강의 듣는 중 - 편차 제곱의 합의 평균  1) 편차의 합은 0이 되기 때문에 제곱해서 다 양수로 통일하는 것2) 편차가 큰 값들을 더 부각시키기 위함df['height'].var()#52.92330276553103  - 편차 제곱의 합의 평균에 루트를 씌운 것.- 분산을 구할 때 제곱을 했기 때문에 이것을 다시 원래의 단위로 맞춰 주는 것 df['height'].std()#7.2748403945056435   - but, 위의 공식은 모집단의 값을 구하는 공식이고, 표본을 구할 때는 값이 달라짐.+ 아 그냥.. 공식을 써주지.. 그래야 시그마랑 구분하자나.. --> n이 아닌 n-1로 나눠서 평균을 구하는 것- 표본은 결국 모집단을 추정하기 위함인데, - n으로 나누면 과소..

Statistics 2024.06.11

[기초 통계] 모집단과 표본, 기술통계와 추론 통계, 변수 종류, 데이터 분포 모양

# 코드잇 데이터 사이언스 강의 듣는 중 - 원래 측정하고 싶던 전체 집단 - 예, 한국 대학생 전체  - 모집단에서 측정가능한 일부만 추출한 집단- 예, 00대학교 심리학과 학생 전체 (200명)- 데이터 요약 및 핵심적인 특징 파악- 예, 평균, 편차, 분산, 상관 등  statistics>- 표본을 기반으로 모집단을 추론하는 것- 예, 회귀, 분산 등 +++ - 희한하게.. 데분 쪽에서는.. 변수 종류를 제대로 설명을 안함.. 왜이러는 거임..?- 이렇게 구분해 놓는 것이 통계 돌릴 때 어떤 분석이 가능하고 어떤 것이 아닌지 알기 편함. - 이산형discrete 변수..이름이 기억 안 나서 자꾸 그 불리안......하다가 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ찾았음.. - 예전에는 불리안을 몰랐는데 이젠 디스크리트를..

Statistics 2024.06.11

[EDA] 데이터 합치기 .merge; inner join, left outer join, right outer join, full outer join

# 코드잇 데이터 사이언스 강의 듣는 중1. inner join2. left outer join3. right outer join4. full outer join     1. inner join  - 겹치는 부분만 합치겠다는 의미.- 아래 예시를 보면 겹치는 3 상품만 합쳐져서 결과 값이 나옴 --> .merge(A, B, on='')          - 이 경우에 inner join 값은 product이기 때문에 on에 넣어줌 pd.merge(price_df, quantity_df, on='Product') 2. left outer join - 왼쪽 값만 합치겠다는 것. 오른 쪽 데이터에 없더라도- 예시를 보면 왼쪽의 상품은 전부 포함되지만,오른쪽에 겹치지 않는 제품들은 NaN으로 표시됨.  -->..

Data Science/Pandas 2024.06.09

[EDA] 카테고리 분류, .groupby

# 코드잇 데이터 사이언스 강의 듣는 중- .groupby --> 카테고리 분류를 편하게 하는 기능  - DataFrameGroupBy type을 사용하면 분류하는 것이 굉장히 쉬워짐. + sql문이 이건가..?- 하여튼 변수에 groupby 메소드를 쓰면 알아서 보기 편하게 변수에 따른 통계치나 플랏을 볼 수 있게 만들어줌.  - 새로운 변수를 따로 만들어서 사용하는 것이 편리한 듯 --> type은 DataFrameGroupBynation_groups = df.groupby('brand_nation')type(nation_groups)#pandas.core.groupby.generic.DataFrameGroupBy - 그럼 이것저것 메소드 가능해짐 - .count() --> 각 변수 별로 카운트 해줌..

Data Science/Pandas 2024.06.09

[EDA] 카테고리 분류, .map()

# 코드잇 데이터 사이언스 강의 듣는 중- python dictionary를 사용하면 한 번에 바꾸고 싶은 값들을 바꿀 수 있음. - .map() --> series의 각 요소에 간단한 함수를 적용하여 변경하고 싶을 때 자주 사용 1) ()안에 함수를 넣어주거나, 2) 앞의 벡터 뒤에 조건식 값을 더해서 넣을 때  그 위치를 잡기 위함. + 진짜 mapping ; 그냥 뒤에 붙여 넣어주는 것으로 이해 import pandas as pdimport seaborn as snsdf = pd.read_csv('data/laptops.csv')df.head() --> 브랜드의 제조 국가를 넣고 싶음.        - 브랜드에 해당하는 제조국가를 파이썬 사전으로 만들어줌. brand_nation ={ 'Del..

Data Science/Pandas 2024.06.07

[EDA] 값 추가, 문자열 필터링 .str.contains(''), 값 분리, .str.split()

# 코드잇 데이터 사이언스 강의 듣는 중- .sum(axis='colums') - 전처리 단계에서 필요한 변수 생성할 때 유용함. 일일히 행렬 값을 전부 치지 않아도 됨. df.sum(axis='columns')#변수에 넣어주면 계산하기가 더 편해짐df['Total']= df.sum(axis='columns') --> then, 값이 마지막 열로 바로 추가됨.        - 직선 그래프는 y='' 만 넣어주면 됨. df.plot(y='Total') --> 명백하게 해가 지날 수록 tv 시청률이 줄어드는 것을 확인 가능         - 지상파/종편 비교 하고 싶으면, 각 값을 생성해주면 됨.df['Group1'] = df.loc[:,'KBS':'SBS'].sum(axis='columns')df['Gro..

Data Science/Pandas 2024.06.07

[EDA] 적용 예제

# 코드잇 데이터 사이언스 강의 듣는 중 - 생각보다 어떤 걸 적용해야 할지가 바로 떠오르지 않았고 적용하면서도 왜이래.. 하면서 생각보다 시간이 오래걸렸다.- 그래서 해설을 정리해 두려고 한다.  - 문제는 데이터에서 이 답들을 뽑아 내는 것이었다. - 정답은 맞췄지만, 시간이 너무 오래 걸렸고, 가장 효율적인 방법으로 찾아내진 못한 것 같다. 그래서 이번 포스팅을 적는다.  - 일단 데이터를 불러오고, 살펴보기import pandas as pdimport seaborn as snstitanic = pd.read_csv('data/titanic.csv')titanic.head()#데이터 타입 확인titanic.info() 1) 타이타닉의 승객은 30대와 40대가 가장 많다. --> 히스토그램- 나는 바..

Data Science/Pandas 2024.06.07

[Statistics] 군집 분석 cluster analysis, sns.clustermap()

# 코드잇 데이터 사이언스 강의 듣는 중 - 서로 관련이 있는 집단들을  묶어서 분석하는 것- sns.clustermap() - 강의에서는 상관이 있는 것들을 묶는 예제를 보여줬는데, 실제로는, 상관.... 보다는 변수들 간의 관계나 값의 분포 차이에 따라서 군집을 나눔.  + 군집분석은 data driven 이기 때문에 일반화 하기가 어렵다는 문제가 있지만, 확진적 요인 분석 CFA 과 잠재 프로파일분석 LPA으로 논문을 썼기 때문에 흥미로운 결과를 많이 뽑아낼 수 있다고 생각하는 편이다.  - 필요한 칼럼만 분리하고.interests = df.loc[:, 'History':'Pets']interests.head() - 상관을 아예 변수에 넣음.corr = interests.corr()corr - 역사..

Statistics 2024.06.05

[EDA] 가설 검정 전에 data set을 살피는 단계

# 코드잇 데이터 사이언스 강의 듣는 중  - data set을 탐색적으로 살펴보면서 일반적인 패턴을 확인하는 것으로, 데이터 분석의 첫 단계.- row, column의 의미나, 분포, 연관성 등을 다양한 각도에서 확인하는 것. - 공식이 따로 있는 것이 아니라 데이터를 살펴보는 모든 것을 의미함. - 대개 시각적 기법을 가장 많이 사용함.  ++ 즉, 데이터 분석의 초기 단계로,패턴, 이상치와 관례 등 기술적 통계부터 시각화를 사용해서 확인하는 것을 의미함. - 데이터의 특성과, 이후 분석과 가설 검정에 대한 정보를 제공함. - 그니깐 약간 말그대로 탐색적임. - 가설 검정 전 단계에 이걸로 뭘 할 수 있을 지 고민하는 단계임.  => 그러니깐 기본적으로 표본이 어떤 지.. 결측지는 어떤지, 어디로 치..

Data Science/Pandas 2024.06.03

[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap()

# 코드잇 데이터 사이언스 강의 듣는 중  - 여러 상관 계수가 있지만, 피어슨 Pearson 상관 계수를 많이 씀. 1) 범위: -1 2)  피어슨 Pearson 상관 계수 = 0 --> 상관이 없음. 3)  피어슨 Pearson 상관 계수 = +- 1 --> 강한 상관4) 1 > 피어슨 Pearson 상관 계수 > 0 : 정적 상관; x가 커지면 y가 증가        5) -1 피어슨 Pearson 상관 계수        ++++ --> 피어슨 상관계수 --> x,y의 공분산 값을 각각의 표준편차의 곱으로 나눠준 것  공분산 covariance> --> 각 값의 편차끼리 곱한 값을 n수로 나누어 준 것으로 변수의 관계의 방향성과 강도를 측정할 때 사용 가능함.  - 즉, 같이 움직이는 경향성임. 편..

Statistics 2024.06.02
728x90
반응형