자신에게 친절할 것 :)
728x90
반응형

데이터 전처리 12

[데이터 전처리] 중복값 duplicate value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .duplicated() airbnb_df.duplicated() #true 중복 값.    --> 결측 값 여부에 따라서 true or false // 있으면 True    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.duplicated().sum()#2#중복을 인덱싱 한 값에서도 sum 확인 가능. 대신 인덱싱은 풀고 조건만 넣어야 함. #first와 last의 값은 같지만, False의 값은 예외도 추가되서 더 많아짐. airbnb_df.duplicated(subset='id').sum()#6 --> 이건 전체 값이 중복되는 지 여부가 디폴트임. - 인덱싱하면airbnb_df[airbnb_df.duplicated(..

Data Science/Pandas 2024.06.17

[데이터 전처리] 결측값 missing value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .info()airbnb_df.info() --> non-null count를 통해 다른 값들과 갯수가 다르면 null있다고 예측 가능.         2) .isna()airbnb_df.isna() #결측값이 있으면 TRUE --> 결측 값 여부에 따라서 true or false    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.isna().sum() --> 이러면 결측치 보기가 편함.         - 조건식으로 확인하려면, .any(axis=1)을 넣어줌. airbnb_df.isna().any(axis=1) #any는 트루 값이 1개라도 있으면 트루 결측값 존재 확인. --> 불리언 시리즈로 출력--> 벡터 중 트..

Data Science/Pandas 2024.06.17
728x90
반응형