자신에게 친절할 것 :)
728x90
반응형

pandas 24

[데이터 전처리] 결측값 missing value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .info()airbnb_df.info() --> non-null count를 통해 다른 값들과 갯수가 다르면 null있다고 예측 가능.         2) .isna()airbnb_df.isna() #결측값이 있으면 TRUE --> 결측 값 여부에 따라서 true or false    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.isna().sum() --> 이러면 결측치 보기가 편함.         - 조건식으로 확인하려면, .any(axis=1)을 넣어줌. airbnb_df.isna().any(axis=1) #any는 트루 값이 1개라도 있으면 트루 결측값 존재 확인. --> 불리언 시리즈로 출력--> 벡터 중 트..

Data Science/Pandas 2024.06.17

[Pandas] 엑셀xlsx , csv파일로 내보내기

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .to_csv()loan_df.to_csv('data/loan1.csv') - but, 인덱스 자리의 값을 칼럼으로 보냄. loan_df1 = pd.read_csv('data/loan1.csv') --> index = True 가 기본값이기 때문에 파일을 내보낼 때, 인덱스 자리를 만드는 것.     - 한 번 더 하면 또 그렇게 됨. loan_df1.to_csv('data/loan2.csv')loan_df2 = pd.read_csv('data/loan2.csv') --> 인덱스에 이름이 없었기에 unamed가 추가됨.      - index= False 파라미터를 추가하면 값이 유지 됨. loan_df1.to_csv('data/loan2.csv', in..

Data Science/Pandas 2024.06.15

[Pandas] query()로 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - 일반적인 불린 인덱싱loan_df[loan_df['income'] > 5000]  - .query() 를 사용하면 더 간단해짐. - 데이터 프레임 객체의 쿼리 메소드로 들어가서 ('조건 식') 을 넣어주기만 하면 됨. 데이터 프레임을 계속 안 써도 되서 더 짧아짐. loan_df.query('income > 5000')  - 변수의 비교도 가능 income_mean = loan_df['income'].mean()loan_df.query('income > @income_mean') --> 굳이 길게 안 써도 되니깐 훨씬 깔끔 해짐. --> 대신, 만든 변수 앞에는 @를 넣어줘야 함 (아니면 에러 뜸)  - 문자열도 그냥 조건문 ""/'' 넣어주면 됨. - ..

Data Science/Pandas 2024.06.14

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod()

# 코드잇 데이터 사이언스 강의 듣는 중  - . cumsum() --> cumulative sum 누적 합- 예를 들어, 수입의 누적 값을 확인하고 싶을 때 등에 쓸 수 있음. df['revenue_cumsum']= df['revenue'].cumsum()df - 진짜.. 너무 편한듯.. ㅎ          - 플롯으로 변경 추이를 한 눈에 확인할 수도 있음. df.plot(x='month', y='revenue_cumsum') df.plot(x='month', y='revenue_cumsum', kind='bar') - . cumprod() --> cumulative  product 누적 곱- 예를 들어, 연간 금리에 따른 만기액 같은 계산이 가능해짐.  +..ㅎ 내가 진짜 학생 때 제일 싫어했던....

Statistics 2024.06.12

[기초통계] 분산과 표준편차

# 코드잇 데이터 사이언스 강의 듣는 중 - 편차 제곱의 합의 평균  1) 편차의 합은 0이 되기 때문에 제곱해서 다 양수로 통일하는 것2) 편차가 큰 값들을 더 부각시키기 위함df['height'].var()#52.92330276553103  - 편차 제곱의 합의 평균에 루트를 씌운 것.- 분산을 구할 때 제곱을 했기 때문에 이것을 다시 원래의 단위로 맞춰 주는 것 df['height'].std()#7.2748403945056435   - but, 위의 공식은 모집단의 값을 구하는 공식이고, 표본을 구할 때는 값이 달라짐.+ 아 그냥.. 공식을 써주지.. 그래야 시그마랑 구분하자나.. --> n이 아닌 n-1로 나눠서 평균을 구하는 것- 표본은 결국 모집단을 추정하기 위함인데, - n으로 나누면 과소..

Statistics 2024.06.11

[EDA] 카테고리 분류, .map()

# 코드잇 데이터 사이언스 강의 듣는 중- python dictionary를 사용하면 한 번에 바꾸고 싶은 값들을 바꿀 수 있음. - .map() --> series의 각 요소에 간단한 함수를 적용하여 변경하고 싶을 때 자주 사용 1) ()안에 함수를 넣어주거나, 2) 앞의 벡터 뒤에 조건식 값을 더해서 넣을 때  그 위치를 잡기 위함. + 진짜 mapping ; 그냥 뒤에 붙여 넣어주는 것으로 이해 import pandas as pdimport seaborn as snsdf = pd.read_csv('data/laptops.csv')df.head() --> 브랜드의 제조 국가를 넣고 싶음.        - 브랜드에 해당하는 제조국가를 파이썬 사전으로 만들어줌. brand_nation ={ 'Del..

Data Science/Pandas 2024.06.07

[EDA] 값 추가, 문자열 필터링 .str.contains(''), 값 분리, .str.split()

# 코드잇 데이터 사이언스 강의 듣는 중- .sum(axis='colums') - 전처리 단계에서 필요한 변수 생성할 때 유용함. 일일히 행렬 값을 전부 치지 않아도 됨. df.sum(axis='columns')#변수에 넣어주면 계산하기가 더 편해짐df['Total']= df.sum(axis='columns') --> then, 값이 마지막 열로 바로 추가됨.        - 직선 그래프는 y='' 만 넣어주면 됨. df.plot(y='Total') --> 명백하게 해가 지날 수록 tv 시청률이 줄어드는 것을 확인 가능         - 지상파/종편 비교 하고 싶으면, 각 값을 생성해주면 됨.df['Group1'] = df.loc[:,'KBS':'SBS'].sum(axis='columns')df['Gro..

Data Science/Pandas 2024.06.07

[EDA] 가설 검정 전에 data set을 살피는 단계

# 코드잇 데이터 사이언스 강의 듣는 중  - data set을 탐색적으로 살펴보면서 일반적인 패턴을 확인하는 것으로, 데이터 분석의 첫 단계.- row, column의 의미나, 분포, 연관성 등을 다양한 각도에서 확인하는 것. - 공식이 따로 있는 것이 아니라 데이터를 살펴보는 모든 것을 의미함. - 대개 시각적 기법을 가장 많이 사용함.  ++ 즉, 데이터 분석의 초기 단계로,패턴, 이상치와 관례 등 기술적 통계부터 시각화를 사용해서 확인하는 것을 의미함. - 데이터의 특성과, 이후 분석과 가설 검정에 대한 정보를 제공함. - 그니깐 약간 말그대로 탐색적임. - 가설 검정 전 단계에 이걸로 뭘 할 수 있을 지 고민하는 단계임.  => 그러니깐 기본적으로 표본이 어떤 지.. 결측지는 어떤지, 어디로 치..

Data Science/Pandas 2024.06.03

[통계와 시각화] 선/막대/원 그래프, 히스토그램, box plot, 산포도

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전과 이전 데이터 시각화 강의가 섞인 정리 - numpy처럼 matplotlib을 메소드로 쓸 수도 있지만, Pandas 플랏이 어차피 plt를 끌어다가 쓰는 것이라서 더 간단하게 사용가능. import pandas as pdimport matplotlib.pyplot as pltsales_df = pd.DataFrame({ 'quarter' : ['1Q', '2Q', '3Q', '4Q'], 'revenue' : [1360, 2650, 2070, 4150], 'cost' : [1240, 1970, 1750, 2760]})sales_df#plt plot을 따로 이용plt.plot(sales_df['qua..

Statistics 2024.06.01

[Pandas] boolean indexing 불린 인덱싱, 다중 조건 인덱싱

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 ...ㅎ 진작에 이걸 설명해 주시지..뭐.. 실습하면서 익히긴 했지만, 계속 헷갈렸던 내용이라서.. 정리한다..ㅎ++ 이전 강의보다 훨씬 순서도 깔끔하고 디테일하게 설명해주심. 근데 이전에 했던 내용을 안 다루는 메소드가 많아서 리뉴얼 전이랑 같이 보면 좋을 듯.  - .iloc, .loc 은 원래 포스팅에 설명을 추가했기에 제외하고 조건문 넣은 불린 인덱싱.. 이게 길어져서 그런 지 생각보다 헷갈린다. 1. 조건문만 쓰면 -->  불린 값을 시리즈로 출력import pandas as pdburger_df = pd.read_csv("data/burger.csv", index_col = "product..

Data Science/Pandas 2024.05.31
728x90
반응형