자신에게 친절할 것 :)
728x90
반응형

Data Science 40

[pandas] RFM분석

# 코드잇 데이터 사이언티스트 강의 듣는 중-   RFM - Recency: 고객이 얼마나 최근에 상품을 구매했는가? ; 기준 시점부터 가장 최근 구매일- Frequency: 고객이 얼마나 자주 상품을 구매했는가? ; 기준 기간동안 상품을 구매한 횟수- Monetary: 고객이 상품 구매에 얼마나 많은 돈을 썼는가? ; 기준 기간동안 구매한 상품의 총금액 --> RFM 분석은 위 세 항목을 토대로 고객의 가치를 판단해 고객을 분류하는 것을 의미함. --> 더 최근에, 더 자주, 돈을 많이 쓸수록 가치가 큰 고객임.  - 아주 기본적이지만 효과적으로 고객을 분류하는 방범임.--> 이렇게 분류된 고객 하나하나를 세그먼트 segment 라로 부름 --> 세그먼트에 따라서 고객 관리  적략을 수립하고 적용 가능..

Data Science/Pandas 2024.07.14

[pandas] 데이터 전처리 및 분석 연습2

# 코드잇 데이터 사이언티스트 강의 듣는 중 ... 에휴 안그래도 하면서 자동화를 더 하고 싶다고 생각했는데,이번 채점 노트에서는 파이썬으로 자동화를 굉장히 많이했음..........파이썬 강의를 더 들어야 할 듯.. 아 머리아픔.중간에 막혔던 부분들이 있어서 돌려가면서 할 것 같음. [코드잇 강의 가이드라인]1. 데이터 불러오기data 폴더 안에 있는 csv 파일을 DataFrame으로 불러옵시다.- 읍면동별, 상세 업종별 카드 이용 데이터(2017년): jeju_card_region_2017.csv- 읍면동별, 상세 업종별 카드 이용 데이터(2018년): jeju_card_region_2018.csv- 읍면동 단위 내국인 유동인구 데이터: jeju_population.csv2. 데이터 탐색 및 전처리..

Data Science/Pandas 2024.07.08

[pandas] 데이터 전처리 및 분석 연습1

# 코드잇 데이터 사이언티스트 강의 듣는 중 [코드잇 강의 가이드 라인]1. 데이터 불러오기data 폴더 안에 있는 jeju_card.csv 파일을 DataFrame으로 불러옵시다.2. 데이터 탐색 및 전처리데이터를 간단히 탐색하고 전처리해 봅시다.- 데이터 개수, 컬럼별 데이터 타입, 통계 정보, 결측값 존재 여부 등을 확인해 보세요.- 각 컬럼이 어떤 값들로 이루어져 있는지 확인해 보세요.- 2017년과 2018년의 데이터만 추출해 주세요.3. 데이터 분석연월별 카드 이용 추이를 비교해 보세요.- 2017년과 2018년, 두 연도 사이에 어떤 차이가 있나요? 왜 그런 차이가 나는지도 한번 확인해 보세요.연령대별로 카드 이용에 어떤 차이가 있는지 비교해 보세요.- 이용자수, 소비금액, 1회당 소비금액을..

Data Science/Pandas 2024.07.04

[데이터 전처리] 원하는 시간 간격으로 묶기 .resample()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .resample() - 일자 별로 합계나 평균을 계산해서 보고 싶을 때 사용.- datetime이 인덱스로 설정되어 있어야 함.  - 일단, 인덱스로 설정하기  order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])order_df = order_df.dropna()#인덱스 설정order_df = order_df.set_index('order_time')order_df -->  order_ time이 인덱스가 됨.        - .resample()에 인자로 기준값을 넣어주면 됨. - 원하는 시간 간격 기준을 넣으면 됨 --> 'D' ; 하루, 'M' ; 월,..

Data Science/Pandas 2024.06.26

[데이터 전처리] 그룹 별로 분석하기 groupby(), category 타입, 멀티 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .groupby() - 같은 그룹끼리 묶어서 값 비교 가능  - 넷플릭스에서 장르 별로 값을 비교 하고 싶을때netflix_df = pd.read_csv('data/netflix.csv')netflix_df --> 이런 데이터임       - 일단 결측치랑 간단한 통계 값 확인 #일단 결측치부터 확인 netflix_df.info()# 간단한 통계 값도 확인 netflix_df.describe() - 장르별로 구분되도록 나누기  --> 뒤에 계산식을 넣지 않으면 groupby가 적용되었다고만 나타남. netflix_df.groupby('genre')#값 - 장르별 값 확인 netflix_df.groupby('genre').count() #결측 값 제외 --..

Data Science/Pandas 2024.06.26

[데이터 전처리] 데이터 합치기) 같은 형식 concat() / 칼럼 기준 merge() / 인덱스 기준 join()

# 코드잇 데이터 사이언티스트 강의 듣는 중 - pd.concat() - 같은 변수를 합칠 때 import pandas as pdenglish_df1 = pd.DataFrame({ 'name': ['dongwook', 'taeho', 'jimin'], 'english_score': [50, 89, 68]})english_df2 = pd.DataFrame({ 'name': ['yoonseo', 'sowon', 'haeun'], 'english_score': [88, 91, 72]}) --> english_df1    --> english_df2 --> 2개의 형식이 같기에 그냥 합치는 게 나음 pd.concat([english_df1, english_df2]) --> 디폴트가 행으로 ..

Data Science/Pandas 2024.06.25

[데이터 전처리] 날짜와 시간 데이터 인덱싱하기/ 더하기 빼기, 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 불린 인덱싱을 하려면 datetime이 인덱스가 되어 있어야 함. - .set_index()#datetime으로 불러오기order_df = pd.read_csv('data/order.csv', parse_dates =['order_time', 'shipping_time'])#미리 불러왔으면, 데이터타입만 변경delivery_df['order_time'] = pd.to_datetime(delivery_df['order_time']#인덱스로 지정order_df.set_index('order_time')  -->보면 시간이 순서대로 정렬되어 있지 않음.        - 정렬시켜줌order_df = order_df.set_index('order_time').sor..

Data Science/Pandas 2024.06.24

[데이터 전처리] 날짜와 시간 데이터 타입 설정하기, datetime

# 코드잇 데이터 사이언티스트 강의 듣는 중 --> 데이터 프레임에 날짜와 시간이 들어가 있을 때, 데이터 타입을 확인해 보면 대체로 object임.  --> 그런데 이러면 원하는 대로 시간과 날짜를 인덱싱하기가 불편함.   order_df.dtypes     - pd.to_datetime()- 판다스에 메소드로 지정하고 해당하는 벡터를 ()안에 넣으면 됨. pd.to_datetime(order_df['order_time']) --> dtypes가 datetime으로 바뀜.       - but, 1개 값만 불러오면 타입이 달라짐. pd.to_datetime(order_df['order_time'])[0] --> timestamp가 나타남.  - datetime, timestamp 모두 어떤 시점에 날짜..

Data Science/Pandas 2024.06.24

[데이터 전처리] 데이터 구간화 cut() or apply(), 람다함수와 apply()

# 코드잇 데이터 사이언티스트 강의 듣는 중  - 연속적 숫자 데이터를 여러 구간으로 분류      - 우선 구획화하고 싶은 값의 최소/최대값을 확인patient_df['age'].describe() --> 최소 20, 최대 69--> 즉 20대부터 총 60대까지로 구성     - pd.cut()- pd의 메소드임. 파라미터로 여러가지 조건들을 계속 넣어줄 수 있음. - bins = --> 구간 설정 시 사용pd.cut(patient_df['age'], bins=[20, 30, 40, 50, 60, 70]) --> 옆에처럼 나눠주고 싶은 구간을 지정(연령대)해도 되고,그냥 숫자를 넣으면 (예, 3) 그 수만큼 알아서 나눠주기도 함.      patient_df['age_group'] = pd.cut(pa..

Data Science/Pandas 2024.06.21

[데이터 전처리] 새로운 값 계산하기, 정규화, 표준화, 과학적 표기법

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 이건 그냥 벡터끼리 계산해서 새로운 변수 만들 수 있음- 예제에서 비만율과의 연관성을 보기 위해서 허리 엉덩이 둘레 비율 변수를 새로 만든 것처럼 가능. + 심리학 연구에서는 거의 측정도구가 거의 검사survey였기 때문에,벡터끼리 계산해서 각 척도 별 총점 혹은, 하위 척도의 총점을 구했고, 당연히 그걸 활용해서 통계를 돌렸음.  patient_df['waist']/patient_df['hip'] --> 수를 확인하기가 어려움.       - 반올림- round(값, 자리 수) #둘째 자리까지 반올림round(patient_df['waist']/patient_df['hip'], 2) --> 소수점 둘째 자리까지 반올림 된 것.        - 걍 벡터 만..

Data Science/Pandas 2024.06.20
728x90
반응형