자신에게 친절할 것 :)
728x90
반응형

분류 전체보기 140

[pandas] RFM분석

# 코드잇 데이터 사이언티스트 강의 듣는 중-   RFM - Recency: 고객이 얼마나 최근에 상품을 구매했는가? ; 기준 시점부터 가장 최근 구매일- Frequency: 고객이 얼마나 자주 상품을 구매했는가? ; 기준 기간동안 상품을 구매한 횟수- Monetary: 고객이 상품 구매에 얼마나 많은 돈을 썼는가? ; 기준 기간동안 구매한 상품의 총금액 --> RFM 분석은 위 세 항목을 토대로 고객의 가치를 판단해 고객을 분류하는 것을 의미함. --> 더 최근에, 더 자주, 돈을 많이 쓸수록 가치가 큰 고객임.  - 아주 기본적이지만 효과적으로 고객을 분류하는 방범임.--> 이렇게 분류된 고객 하나하나를 세그먼트 segment 라로 부름 --> 세그먼트에 따라서 고객 관리  적략을 수립하고 적용 가능..

Data Science/Pandas 2024.07.14

[pandas] 데이터 전처리 및 분석 연습2

# 코드잇 데이터 사이언티스트 강의 듣는 중 ... 에휴 안그래도 하면서 자동화를 더 하고 싶다고 생각했는데,이번 채점 노트에서는 파이썬으로 자동화를 굉장히 많이했음..........파이썬 강의를 더 들어야 할 듯.. 아 머리아픔.중간에 막혔던 부분들이 있어서 돌려가면서 할 것 같음. [코드잇 강의 가이드라인]1. 데이터 불러오기data 폴더 안에 있는 csv 파일을 DataFrame으로 불러옵시다.- 읍면동별, 상세 업종별 카드 이용 데이터(2017년): jeju_card_region_2017.csv- 읍면동별, 상세 업종별 카드 이용 데이터(2018년): jeju_card_region_2018.csv- 읍면동 단위 내국인 유동인구 데이터: jeju_population.csv2. 데이터 탐색 및 전처리..

Data Science/Pandas 2024.07.08

[멀티잇캠퍼스 국비지원] 데이터분석 & 엔지니어링 강의 수강 예정

휴..드디어 국비지원 강의를 들을 수 있게 되었다..이번에도 미뤄지지 않았으면 좋겠는데.. 원래는 6/24일에 열리는 다른 강의를 신청했는데..강의 명이 바뀌고 7/29일로 밀리고, 심지어 그 때도 인원이 안 차면 미뤄진다는 이야기에 7/15에 열린다고 공지된 본 강의로 바꾸겠다고 요청했다. 다른 학원들도 알아봤지만, 이미 개강을 했거나 아예 8월로 미뤄지거나, 100명 여의 대규모 강의라서 그보다는 소규모가 낫겠다고 판단했다. 다른 어떤 것보다멀티잇캠퍼스는 강사에 대한 부정적 평가가 적었다.주변에 국비지원으로 웹개발 쪽으로 이직한 지인들이 있는데, 좋은 학원도 강사를 타고강사보고 들어가도 중도에 바뀌는 경우가 너무 많다고 했었다.  나는 이미다른 분야를 준비하다가 이직을 하려는 경우라서기회비용이 너무 ..

Blah Blah 2024.07.05

[pandas] 데이터 전처리 및 분석 연습1

# 코드잇 데이터 사이언티스트 강의 듣는 중 [코드잇 강의 가이드 라인]1. 데이터 불러오기data 폴더 안에 있는 jeju_card.csv 파일을 DataFrame으로 불러옵시다.2. 데이터 탐색 및 전처리데이터를 간단히 탐색하고 전처리해 봅시다.- 데이터 개수, 컬럼별 데이터 타입, 통계 정보, 결측값 존재 여부 등을 확인해 보세요.- 각 컬럼이 어떤 값들로 이루어져 있는지 확인해 보세요.- 2017년과 2018년의 데이터만 추출해 주세요.3. 데이터 분석연월별 카드 이용 추이를 비교해 보세요.- 2017년과 2018년, 두 연도 사이에 어떤 차이가 있나요? 왜 그런 차이가 나는지도 한번 확인해 보세요.연령대별로 카드 이용에 어떤 차이가 있는지 비교해 보세요.- 이용자수, 소비금액, 1회당 소비금액을..

Data Science/Pandas 2024.07.04

[마스터 알고리즘] 1-2장 마스터 알고리즘은 가능한가?

#마스터 알고리즘 the master algorithm  #페드로 도밍고스 Pedro Domingos 오늘 TIL 3줄 요약마스터 알고리즘은 .. 뇌의 가소성을 현실화 하고 싶다는 것 같음. 어떤 내요이든지 학습하며, 응용하고 예측하게 만든다는 것은........ 인간의 뇌를 만들고 싶다는 것으로 들림...흠.. 범용....까진 모르겠고 가까워질 수는 있을 듯. 아마도?머신러닝의 학습이 .. 그냥 데이터를 넣는 게 아니라 더 큰 것(마스터 알고리즘.. 뇌?)을 보고 있다는 사실이 매우 흥미로웠음. 컴공의 '마스터 알고리즘'은 마치 심리학의 궁극적 목적인 '치매 치료제? 검사제(예방)'처럼 들림. TIL (Today I Learned) 날짜2024. 06. 27 오늘 읽은 범위1장. 머신러닝의 혁명이 시작..

book 2024.06.27

[데이터 전처리] 원하는 시간 간격으로 묶기 .resample()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .resample() - 일자 별로 합계나 평균을 계산해서 보고 싶을 때 사용.- datetime이 인덱스로 설정되어 있어야 함.  - 일단, 인덱스로 설정하기  order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])order_df = order_df.dropna()#인덱스 설정order_df = order_df.set_index('order_time')order_df -->  order_ time이 인덱스가 됨.        - .resample()에 인자로 기준값을 넣어주면 됨. - 원하는 시간 간격 기준을 넣으면 됨 --> 'D' ; 하루, 'M' ; 월,..

Data Science/Pandas 2024.06.26

[데이터 전처리] 피벗 테이블 .pivot_table()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .pivot_table() - groupby랑 유사하게 같은 그룹끼리 묶어서 값 비교 가능  - 피봇은 좀 더 깔끔하게 생긴 표 형태로 데이터를 요약 가능,- but, 인덱스나 칼럼에 들어가는 값들이 너무 많은 경우엔 그룹바이보다 가독성이 떨어짐. - 피봇보다 그룹바이의 계산 속도가 더 빠르기 때문에 데이터가 엄청 클 경우에는 그룹바이가 더 나음.--> 둘 중에 상황에 따라 쓰면 될 듯. - 넷플릭스 컨텐츠의 연도와 장르에 따른 점수의 평균을 보고자 할 때,- groupby는 행에 연도와 장르를 넣음. netflix_df.groupby(['year', 'genre'])['score'].mean()#값year genre 2019 Comedy..

카테고리 없음 2024.06.26

[데이터 전처리] 그룹 별로 분석하기 groupby(), category 타입, 멀티 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .groupby() - 같은 그룹끼리 묶어서 값 비교 가능  - 넷플릭스에서 장르 별로 값을 비교 하고 싶을때netflix_df = pd.read_csv('data/netflix.csv')netflix_df --> 이런 데이터임       - 일단 결측치랑 간단한 통계 값 확인 #일단 결측치부터 확인 netflix_df.info()# 간단한 통계 값도 확인 netflix_df.describe() - 장르별로 구분되도록 나누기  --> 뒤에 계산식을 넣지 않으면 groupby가 적용되었다고만 나타남. netflix_df.groupby('genre')#값 - 장르별 값 확인 netflix_df.groupby('genre').count() #결측 값 제외 --..

Data Science/Pandas 2024.06.26

[데이터 전처리] 데이터 합치기) 같은 형식 concat() / 칼럼 기준 merge() / 인덱스 기준 join()

# 코드잇 데이터 사이언티스트 강의 듣는 중 - pd.concat() - 같은 변수를 합칠 때 import pandas as pdenglish_df1 = pd.DataFrame({ 'name': ['dongwook', 'taeho', 'jimin'], 'english_score': [50, 89, 68]})english_df2 = pd.DataFrame({ 'name': ['yoonseo', 'sowon', 'haeun'], 'english_score': [88, 91, 72]}) --> english_df1    --> english_df2 --> 2개의 형식이 같기에 그냥 합치는 게 나음 pd.concat([english_df1, english_df2]) --> 디폴트가 행으로 ..

Data Science/Pandas 2024.06.25

[데이터 전처리] 날짜와 시간 데이터 인덱싱하기/ 더하기 빼기, 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 불린 인덱싱을 하려면 datetime이 인덱스가 되어 있어야 함. - .set_index()#datetime으로 불러오기order_df = pd.read_csv('data/order.csv', parse_dates =['order_time', 'shipping_time'])#미리 불러왔으면, 데이터타입만 변경delivery_df['order_time'] = pd.to_datetime(delivery_df['order_time']#인덱스로 지정order_df.set_index('order_time')  -->보면 시간이 순서대로 정렬되어 있지 않음.        - 정렬시켜줌order_df = order_df.set_index('order_time').sor..

Data Science/Pandas 2024.06.24
728x90
반응형