Tasha's devlog

자신에게 친절할 것 :)

728x90

2024/06/26 3

[데이터 전처리] 원하는 시간 간격으로 묶기 .resample()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .resample() - 일자 별로 합계나 평균을 계산해서 보고 싶을 때 사용.- datetime이 인덱스로 설정되어 있어야 함. - 일단, 인덱스로 설정하기 order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])order_df = order_df.dropna()#인덱스 설정order_df = order_df.set_index('order_time')order_df --> order_ time이 인덱스가 됨. - .resample()에 인자로 기준값을 넣어주면 됨. - 원하는 시간 간격 기준을 넣으면 됨 --> 'D' ; 하루, 'M' ; 월,..

Data Science/Pandas 2024.06.26

[데이터 전처리] 피벗 테이블 .pivot_table()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .pivot_table() - groupby랑 유사하게 같은 그룹끼리 묶어서 값 비교 가능 - 피봇은 좀 더 깔끔하게 생긴 표 형태로 데이터를 요약 가능,- but, 인덱스나 칼럼에 들어가는 값들이 너무 많은 경우엔 그룹바이보다 가독성이 떨어짐. - 피봇보다 그룹바이의 계산 속도가 더 빠르기 때문에 데이터가 엄청 클 경우에는 그룹바이가 더 나음.--> 둘 중에 상황에 따라 쓰면 될 듯. - 넷플릭스 컨텐츠의 연도와 장르에 따른 점수의 평균을 보고자 할 때,- groupby는 행에 연도와 장르를 넣음. netflix_df.groupby(['year', 'genre'])['score'].mean()#값year genre 2019 Comedy..

카테고리 없음 2024.06.26

[데이터 전처리] 그룹 별로 분석하기 groupby(), category 타입, 멀티 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중 - .groupby() - 같은 그룹끼리 묶어서 값 비교 가능 - 넷플릭스에서 장르 별로 값을 비교 하고 싶을때netflix_df = pd.read_csv('data/netflix.csv')netflix_df --> 이런 데이터임 - 일단 결측치랑 간단한 통계 값 확인 #일단 결측치부터 확인 netflix_df.info()# 간단한 통계 값도 확인 netflix_df.describe() - 장르별로 구분되도록 나누기 --> 뒤에 계산식을 넣지 않으면 groupby가 적용되었다고만 나타남. netflix_df.groupby('genre')#값 - 장르별 값 확인 netflix_df.groupby('genre').count() #결측 값 제외 --..

Data Science/Pandas 2024.06.26

Tasha's devlog

데이터 사이언티스트로의 이직을 위한 기술 블로그 💫🍀

자바의 정석, 노개북, 개발자북클럽, EDA, java, 코코아톡 클론 코딩, seaborn, 배열, 노마드코더, 개발자 북클럽, .map(), pandas, 불린 인덱싱, 데이터 전처리, 노마드 코더, JS, CSS, dataframe 인덱싱, basic, Jupyter notebook,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

2024/06/26 3

티스토리툴바