자신에게 친절할 것 :)
728x90
반응형

2024/06/07 3

[EDA] 카테고리 분류, .map()

# 코드잇 데이터 사이언스 강의 듣는 중- python dictionary를 사용하면 한 번에 바꾸고 싶은 값들을 바꿀 수 있음. - .map() --> series의 각 요소에 간단한 함수를 적용하여 변경하고 싶을 때 자주 사용 1) ()안에 함수를 넣어주거나, 2) 앞의 벡터 뒤에 조건식 값을 더해서 넣을 때  그 위치를 잡기 위함. + 진짜 mapping ; 그냥 뒤에 붙여 넣어주는 것으로 이해 import pandas as pdimport seaborn as snsdf = pd.read_csv('data/laptops.csv')df.head() --> 브랜드의 제조 국가를 넣고 싶음.        - 브랜드에 해당하는 제조국가를 파이썬 사전으로 만들어줌. brand_nation ={ 'Del..

Data Science/Pandas 2024.06.07

[EDA] 값 추가, 문자열 필터링 .str.contains(''), 값 분리, .str.split()

# 코드잇 데이터 사이언스 강의 듣는 중- .sum(axis='colums') - 전처리 단계에서 필요한 변수 생성할 때 유용함. 일일히 행렬 값을 전부 치지 않아도 됨. df.sum(axis='columns')#변수에 넣어주면 계산하기가 더 편해짐df['Total']= df.sum(axis='columns') --> then, 값이 마지막 열로 바로 추가됨.        - 직선 그래프는 y='' 만 넣어주면 됨. df.plot(y='Total') --> 명백하게 해가 지날 수록 tv 시청률이 줄어드는 것을 확인 가능         - 지상파/종편 비교 하고 싶으면, 각 값을 생성해주면 됨.df['Group1'] = df.loc[:,'KBS':'SBS'].sum(axis='columns')df['Gro..

Data Science/Pandas 2024.06.07

[EDA] 적용 예제

# 코드잇 데이터 사이언스 강의 듣는 중 - 생각보다 어떤 걸 적용해야 할지가 바로 떠오르지 않았고 적용하면서도 왜이래.. 하면서 생각보다 시간이 오래걸렸다.- 그래서 해설을 정리해 두려고 한다.  - 문제는 데이터에서 이 답들을 뽑아 내는 것이었다. - 정답은 맞췄지만, 시간이 너무 오래 걸렸고, 가장 효율적인 방법으로 찾아내진 못한 것 같다. 그래서 이번 포스팅을 적는다.  - 일단 데이터를 불러오고, 살펴보기import pandas as pdimport seaborn as snstitanic = pd.read_csv('data/titanic.csv')titanic.head()#데이터 타입 확인titanic.info() 1) 타이타닉의 승객은 30대와 40대가 가장 많다. --> 히스토그램- 나는 바..

Data Science/Pandas 2024.06.07
728x90
반응형