자신에게 친절할 것 :)
728x90
반응형

2024/06/17 4

[데이터 전처리] 대소문자 처리하기, 문자열 분리하기, 문자 제거하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .unique() 로 값 상태 확인. airbnb_df['state'].unique() --> 보면 대소문자가 중구난방으로 섞여있는데, 컴퓨터는 다 다른 값으로 인식.   1) 소문자로 바꾸기 --> .str.lower()airbnb_df['state'].str.lower() --> 전부 소문자        2) 대문자로 바꾸기 --> .str.upper()airbnb_df['state'].str.upper() --> 대문자        3) 첫 알파벳만 대문자로 바꾸기 --> .str.capitalize()airbnb_df['state'].str.capitalize()           - .str.split() - 한 값에 있는 문자열을 ('') 안의..

Data Science/Pandas 2024.06.17

[데이터 전처리] 이상치outlier 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중   --> 데이터에서 동떨어진 값을 의미하는 데 주로 박스플롯 기준. Q1- 1.5 IQR ~ Q3 + 1.5 IQR 범위를 벗어나는 경우를 이상치라고 함.        1) .quantile() --> 사분위수 구하기 - 사분위수를 구해서 그것을 변수로 설정 q1 = airbnb_df['price'].quantile(0.25)q3 = airbnb_df['price'].quantile(0.75)iqr= q3 - q1lower_limit = q1 - 1.5 * iqrupper_limit = q3 + 1.5 * iqr 2) 조건식으로 사용함. #각각airbnb_df[airbnb_df['price'] upper_limit]#걍 합쳐서 한 번에 보이기airbnb_d..

Data Science/Pandas 2024.06.17

[데이터 전처리] 중복값 duplicate value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .duplicated() airbnb_df.duplicated() #true 중복 값.    --> 결측 값 여부에 따라서 true or false // 있으면 True    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.duplicated().sum()#2#중복을 인덱싱 한 값에서도 sum 확인 가능. 대신 인덱싱은 풀고 조건만 넣어야 함. #first와 last의 값은 같지만, False의 값은 예외도 추가되서 더 많아짐. airbnb_df.duplicated(subset='id').sum()#6 --> 이건 전체 값이 중복되는 지 여부가 디폴트임. - 인덱싱하면airbnb_df[airbnb_df.duplicated(..

Data Science/Pandas 2024.06.17

[데이터 전처리] 결측값 missing value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .info()airbnb_df.info() --> non-null count를 통해 다른 값들과 갯수가 다르면 null있다고 예측 가능.         2) .isna()airbnb_df.isna() #결측값이 있으면 TRUE --> 결측 값 여부에 따라서 true or false    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.isna().sum() --> 이러면 결측치 보기가 편함.         - 조건식으로 확인하려면, .any(axis=1)을 넣어줌. airbnb_df.isna().any(axis=1) #any는 트루 값이 1개라도 있으면 트루 결측값 존재 확인. --> 불리언 시리즈로 출력--> 벡터 중 트..

Data Science/Pandas 2024.06.17
728x90
반응형