자신에게 친절할 것 :)
728x90
반응형

outlier 2

[데이터 전처리] 이상치outlier 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중   --> 데이터에서 동떨어진 값을 의미하는 데 주로 박스플롯 기준. Q1- 1.5 IQR ~ Q3 + 1.5 IQR 범위를 벗어나는 경우를 이상치라고 함.        1) .quantile() --> 사분위수 구하기 - 사분위수를 구해서 그것을 변수로 설정 q1 = airbnb_df['price'].quantile(0.25)q3 = airbnb_df['price'].quantile(0.75)iqr= q3 - q1lower_limit = q1 - 1.5 * iqrupper_limit = q3 + 1.5 * iqr 2) 조건식으로 사용함. #각각airbnb_df[airbnb_df['price'] upper_limit]#걍 합쳐서 한 번에 보이기airbnb_d..

Data Science/Pandas 2024.06.17

[Statistics] mean, median, Q1, Q3, outlier, mode, .describe()

# 코드잇 데이터 사이언스 강의 듣는 중 - data에 따라서 대표치를 어떤 것으로 볼 지가 달라짐.- outlier가 크면, median은 mean보다 outlier의 영향을 덜 받기 때문에 사용- but, median은 전체 값의 분포가 달라져도 같을 수 있지만, mean은 값에 영향을 받기 때문에 median이 다 같으면 mean 더 좋은 대표치가 됨.  --> numerical(수치형) data는 mean, median, mode를 구할 수 있음 - but categorical(범주형) data는 mean, median을 구할 수 없기에 mode가 대표치가 됨.  + 수치형 데이터는 1) 이산형데이터 (값이 정확히 떨어짐; 오늘 마신 아메의 갯수) 와2) 연속형 데이터 (값이 정확하지 않음; 추정..

Statistics 2024.06.02
728x90
반응형