자신에게 친절할 것 :)
728x90
반응형

EDA 6

[EDA] 데이터 합치기 .merge; inner join, left outer join, right outer join, full outer join

# 코드잇 데이터 사이언스 강의 듣는 중1. inner join2. left outer join3. right outer join4. full outer join     1. inner join  - 겹치는 부분만 합치겠다는 의미.- 아래 예시를 보면 겹치는 3 상품만 합쳐져서 결과 값이 나옴 --> .merge(A, B, on='')          - 이 경우에 inner join 값은 product이기 때문에 on에 넣어줌 pd.merge(price_df, quantity_df, on='Product') 2. left outer join - 왼쪽 값만 합치겠다는 것. 오른 쪽 데이터에 없더라도- 예시를 보면 왼쪽의 상품은 전부 포함되지만,오른쪽에 겹치지 않는 제품들은 NaN으로 표시됨.  -->..

Data Science/Pandas 2024.06.09

[EDA] 카테고리 분류, .groupby

# 코드잇 데이터 사이언스 강의 듣는 중- .groupby --> 카테고리 분류를 편하게 하는 기능  - DataFrameGroupBy type을 사용하면 분류하는 것이 굉장히 쉬워짐. + sql문이 이건가..?- 하여튼 변수에 groupby 메소드를 쓰면 알아서 보기 편하게 변수에 따른 통계치나 플랏을 볼 수 있게 만들어줌.  - 새로운 변수를 따로 만들어서 사용하는 것이 편리한 듯 --> type은 DataFrameGroupBynation_groups = df.groupby('brand_nation')type(nation_groups)#pandas.core.groupby.generic.DataFrameGroupBy - 그럼 이것저것 메소드 가능해짐 - .count() --> 각 변수 별로 카운트 해줌..

Data Science/Pandas 2024.06.09

[EDA] 카테고리 분류, .map()

# 코드잇 데이터 사이언스 강의 듣는 중- python dictionary를 사용하면 한 번에 바꾸고 싶은 값들을 바꿀 수 있음. - .map() --> series의 각 요소에 간단한 함수를 적용하여 변경하고 싶을 때 자주 사용 1) ()안에 함수를 넣어주거나, 2) 앞의 벡터 뒤에 조건식 값을 더해서 넣을 때  그 위치를 잡기 위함. + 진짜 mapping ; 그냥 뒤에 붙여 넣어주는 것으로 이해 import pandas as pdimport seaborn as snsdf = pd.read_csv('data/laptops.csv')df.head() --> 브랜드의 제조 국가를 넣고 싶음.        - 브랜드에 해당하는 제조국가를 파이썬 사전으로 만들어줌. brand_nation ={ 'Del..

Data Science/Pandas 2024.06.07

[EDA] 값 추가, 문자열 필터링 .str.contains(''), 값 분리, .str.split()

# 코드잇 데이터 사이언스 강의 듣는 중- .sum(axis='colums') - 전처리 단계에서 필요한 변수 생성할 때 유용함. 일일히 행렬 값을 전부 치지 않아도 됨. df.sum(axis='columns')#변수에 넣어주면 계산하기가 더 편해짐df['Total']= df.sum(axis='columns') --> then, 값이 마지막 열로 바로 추가됨.        - 직선 그래프는 y='' 만 넣어주면 됨. df.plot(y='Total') --> 명백하게 해가 지날 수록 tv 시청률이 줄어드는 것을 확인 가능         - 지상파/종편 비교 하고 싶으면, 각 값을 생성해주면 됨.df['Group1'] = df.loc[:,'KBS':'SBS'].sum(axis='columns')df['Gro..

Data Science/Pandas 2024.06.07

[EDA] 적용 예제

# 코드잇 데이터 사이언스 강의 듣는 중 - 생각보다 어떤 걸 적용해야 할지가 바로 떠오르지 않았고 적용하면서도 왜이래.. 하면서 생각보다 시간이 오래걸렸다.- 그래서 해설을 정리해 두려고 한다.  - 문제는 데이터에서 이 답들을 뽑아 내는 것이었다. - 정답은 맞췄지만, 시간이 너무 오래 걸렸고, 가장 효율적인 방법으로 찾아내진 못한 것 같다. 그래서 이번 포스팅을 적는다.  - 일단 데이터를 불러오고, 살펴보기import pandas as pdimport seaborn as snstitanic = pd.read_csv('data/titanic.csv')titanic.head()#데이터 타입 확인titanic.info() 1) 타이타닉의 승객은 30대와 40대가 가장 많다. --> 히스토그램- 나는 바..

Data Science/Pandas 2024.06.07

[EDA] 가설 검정 전에 data set을 살피는 단계

# 코드잇 데이터 사이언스 강의 듣는 중  - data set을 탐색적으로 살펴보면서 일반적인 패턴을 확인하는 것으로, 데이터 분석의 첫 단계.- row, column의 의미나, 분포, 연관성 등을 다양한 각도에서 확인하는 것. - 공식이 따로 있는 것이 아니라 데이터를 살펴보는 모든 것을 의미함. - 대개 시각적 기법을 가장 많이 사용함.  ++ 즉, 데이터 분석의 초기 단계로,패턴, 이상치와 관례 등 기술적 통계부터 시각화를 사용해서 확인하는 것을 의미함. - 데이터의 특성과, 이후 분석과 가설 검정에 대한 정보를 제공함. - 그니깐 약간 말그대로 탐색적임. - 가설 검정 전 단계에 이걸로 뭘 할 수 있을 지 고민하는 단계임.  => 그러니깐 기본적으로 표본이 어떤 지.. 결측지는 어떤지, 어디로 치..

Data Science/Pandas 2024.06.03
728x90
반응형