자신에게 친절할 것 :)
728x90
반응형

전체 글 116

[데이터 전처리] 대소문자 처리하기, 문자열 분리하기, 문자 제거하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .unique() 로 값 상태 확인. airbnb_df['state'].unique() --> 보면 대소문자가 중구난방으로 섞여있는데, 컴퓨터는 다 다른 값으로 인식.   1) 소문자로 바꾸기 --> .str.lower()airbnb_df['state'].str.lower() --> 전부 소문자        2) 대문자로 바꾸기 --> .str.upper()airbnb_df['state'].str.upper() --> 대문자        3) 첫 알파벳만 대문자로 바꾸기 --> .str.capitalize()airbnb_df['state'].str.capitalize()           - .str.split() - 한 값에 있는 문자열을 ('') 안의..

Data Science/Pandas 2024.06.17

[데이터 전처리] 이상치outlier 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중   --> 데이터에서 동떨어진 값을 의미하는 데 주로 박스플롯 기준. Q1- 1.5 IQR ~ Q3 + 1.5 IQR 범위를 벗어나는 경우를 이상치라고 함.        1) .quantile() --> 사분위수 구하기 - 사분위수를 구해서 그것을 변수로 설정 q1 = airbnb_df['price'].quantile(0.25)q3 = airbnb_df['price'].quantile(0.75)iqr= q3 - q1lower_limit = q1 - 1.5 * iqrupper_limit = q3 + 1.5 * iqr 2) 조건식으로 사용함. #각각airbnb_df[airbnb_df['price'] upper_limit]#걍 합쳐서 한 번에 보이기airbnb_d..

Data Science/Pandas 2024.06.17

[데이터 전처리] 중복값 duplicate value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .duplicated() airbnb_df.duplicated() #true 중복 값.    --> 결측 값 여부에 따라서 true or false // 있으면 True    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.duplicated().sum()#2#중복을 인덱싱 한 값에서도 sum 확인 가능. 대신 인덱싱은 풀고 조건만 넣어야 함. #first와 last의 값은 같지만, False의 값은 예외도 추가되서 더 많아짐. airbnb_df.duplicated(subset='id').sum()#6 --> 이건 전체 값이 중복되는 지 여부가 디폴트임. - 인덱싱하면airbnb_df[airbnb_df.duplicated(..

Data Science/Pandas 2024.06.17

[데이터 전처리] 결측값 missing value 찾기, 처리하기

# 코드잇 데이터 사이언티스트 강의 듣는 중  1) .info()airbnb_df.info() --> non-null count를 통해 다른 값들과 갯수가 다르면 null있다고 예측 가능.         2) .isna()airbnb_df.isna() #결측값이 있으면 TRUE --> 결측 값 여부에 따라서 true or false    - 이거로는 총 개수 확인이 어렵기 때문에 .sum()을 해줌airbnb_df.isna().sum() --> 이러면 결측치 보기가 편함.         - 조건식으로 확인하려면, .any(axis=1)을 넣어줌. airbnb_df.isna().any(axis=1) #any는 트루 값이 1개라도 있으면 트루 결측값 존재 확인. --> 불리언 시리즈로 출력--> 벡터 중 트..

Data Science/Pandas 2024.06.17

[Pandas] 엑셀xlsx , csv파일로 내보내기

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .to_csv()loan_df.to_csv('data/loan1.csv') - but, 인덱스 자리의 값을 칼럼으로 보냄. loan_df1 = pd.read_csv('data/loan1.csv') --> index = True 가 기본값이기 때문에 파일을 내보낼 때, 인덱스 자리를 만드는 것.     - 한 번 더 하면 또 그렇게 됨. loan_df1.to_csv('data/loan2.csv')loan_df2 = pd.read_csv('data/loan2.csv') --> 인덱스에 이름이 없었기에 unamed가 추가됨.      - index= False 파라미터를 추가하면 값이 유지 됨. loan_df1.to_csv('data/loan2.csv', in..

Data Science/Pandas 2024.06.15

[Pandas] query()로 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - 일반적인 불린 인덱싱loan_df[loan_df['income'] > 5000]  - .query() 를 사용하면 더 간단해짐. - 데이터 프레임 객체의 쿼리 메소드로 들어가서 ('조건 식') 을 넣어주기만 하면 됨. 데이터 프레임을 계속 안 써도 되서 더 짧아짐. loan_df.query('income > 5000')  - 변수의 비교도 가능 income_mean = loan_df['income'].mean()loan_df.query('income > @income_mean') --> 굳이 길게 안 써도 되니깐 훨씬 깔끔 해짐. --> 대신, 만든 변수 앞에는 @를 넣어줘야 함 (아니면 에러 뜸)  - 문자열도 그냥 조건문 ""/'' 넣어주면 됨. - ..

Data Science/Pandas 2024.06.14

[코드잇 2달 수강 후기] 데이터 사이언티스트 로드맵 따라 가는 중

1. 로드맵: 2달 전 데이터 분석과 데이터 사이언티스트 직무에 관심이 생겨서 유튜브 영상을 찾아보다가로드맵이 잘 짜여져 있고, 하나씩 각 단계에 따라서 찾아보지 않아도 된다고 추천하는 영상을 보고 강의를 듣게 되었다.  2. 구독형:  인프런이나, 부스트 코스, 유데미 혹은 다른 유튜버들이 하는 강의들은 물론 무료들도 많지만,대개 강의 코스당 2- 15만원 이상을 내야 하는 데 코드잇은 구독형이라서 듣게 되었다.++ 연간 구독료(월 27,417원)가 더 싸지만, 국비지원 강의를 듣게되면 시간이 없을 것 같아 월간(39,300원)으로 듣는 중 3. 무료 체험: 추천을 하신 유튜버도 무료체험 해보고 괜찮으면 하라고 하셨는데.. ㅎ 진짜 무료 체험을 했고.. 거기서 끊내긴 아쉬워서 결국 수강하게 되었다. (..

Blah Blah 2024.06.14

[Pandas] 엑셀xlsx 파일 불러오기

# 코드잇 데이터 사이언스 강의 듣는 중  - . read_excell--> csv랑 동일 함. loan_df = pd.read_excel('data/loan.xlsx') - but, 파라미터를 추가해주지 않으면 원하는 모양으로 불러오지 못할 수도 있음. - 위 코드는 기본적으로 첫번째 시트를 불러옴. 따라서 첫 시트에 아무것도 없으면 .. 안 나옴.  - 원하는 시트를 불러오려면 sheet_name = 을 추가 해줌loan_df = pd.read_excel('data/loan.xlsx', sheet_name=1) - 인덱스랑 같은 개념이기 때문에 1을 부르면 2번째 시트를 불러 오는 것임.  --> 엑셀은 대체로 위에 몇 줄을 비워 놓는데, 판다스는 A1부터 읽음..--> 그래서 다 Nan이 되어 버림..

Data Science/Pandas 2024.06.13

[Seaborn] 스타일 설정하기, 폰트 설정하기, 그래프 크기 조절하기

# 코드잇 데이터 사이언스 강의 듣는 중- seaborn이랑 그냥 plot이랑 왔다갔다 하다보면 다소 헷갈린다.- 틀릴 수도 있는데 일단 우선 내가 해보면서 느낀 것은 다음과 같다. seabornmatplotlib 기반 pandas plot- sns.00plot(data =, x='', y='')- sns를 객체로 가져오고,- 플롯 종류를  메소드로 써주고 데이터 프레임을 파라미터로 받음. + catplot으로 여러 가지 열을 합쳐서 보고 싶은 경우에는 kind= 를 파라미터로 넣어서 어떤 그래프로 그릴 것인지 입력해줘야 함. ++ 다만 파라미터가 1개일 경우에는 같은 듯.. 사실 두 방법 다 될 때도 있어서.. 어쩌잔건지 머리아픔. 예, sns.kdeplot(df['registered'], bw=0.1..

[기초통계] 누적 값 계산하기, .cumsum(), .cumprod()

# 코드잇 데이터 사이언스 강의 듣는 중  - . cumsum() --> cumulative sum 누적 합- 예를 들어, 수입의 누적 값을 확인하고 싶을 때 등에 쓸 수 있음. df['revenue_cumsum']= df['revenue'].cumsum()df - 진짜.. 너무 편한듯.. ㅎ          - 플롯으로 변경 추이를 한 눈에 확인할 수도 있음. df.plot(x='month', y='revenue_cumsum') df.plot(x='month', y='revenue_cumsum', kind='bar') - . cumprod() --> cumulative  product 누적 곱- 예를 들어, 연간 금리에 따른 만기액 같은 계산이 가능해짐.  +..ㅎ 내가 진짜 학생 때 제일 싫어했던....

Statistics 2024.06.12
728x90
반응형