자신에게 친절할 것 :)
728x90
반응형

전체 글 138

[멀티잇캠퍼스 국비지원] 데이터분석 & 엔지니어링 강의 수강 예정

휴..드디어 국비지원 강의를 들을 수 있게 되었다..이번에도 미뤄지지 않았으면 좋겠는데.. 원래는 6/24일에 열리는 다른 강의를 신청했는데..강의 명이 바뀌고 7/29일로 밀리고, 심지어 그 때도 인원이 안 차면 미뤄진다는 이야기에 7/15에 열린다고 공지된 본 강의로 바꾸겠다고 요청했다. 다른 학원들도 알아봤지만, 이미 개강을 했거나 아예 8월로 미뤄지거나, 100명 여의 대규모 강의라서 그보다는 소규모가 낫겠다고 판단했다. 다른 어떤 것보다멀티잇캠퍼스는 강사에 대한 부정적 평가가 적었다.주변에 국비지원으로 웹개발 쪽으로 이직한 지인들이 있는데, 좋은 학원도 강사를 타고강사보고 들어가도 중도에 바뀌는 경우가 너무 많다고 했었다.  나는 이미다른 분야를 준비하다가 이직을 하려는 경우라서기회비용이 너무 ..

Blah Blah 2024.07.05

[pandas] 데이터 전처리 및 분석 연습1

# 코드잇 데이터 사이언티스트 강의 듣는 중 [코드잇 강의 가이드 라인]1. 데이터 불러오기data 폴더 안에 있는 jeju_card.csv 파일을 DataFrame으로 불러옵시다.2. 데이터 탐색 및 전처리데이터를 간단히 탐색하고 전처리해 봅시다.- 데이터 개수, 컬럼별 데이터 타입, 통계 정보, 결측값 존재 여부 등을 확인해 보세요.- 각 컬럼이 어떤 값들로 이루어져 있는지 확인해 보세요.- 2017년과 2018년의 데이터만 추출해 주세요.3. 데이터 분석연월별 카드 이용 추이를 비교해 보세요.- 2017년과 2018년, 두 연도 사이에 어떤 차이가 있나요? 왜 그런 차이가 나는지도 한번 확인해 보세요.연령대별로 카드 이용에 어떤 차이가 있는지 비교해 보세요.- 이용자수, 소비금액, 1회당 소비금액을..

Data Science/Pandas 2024.07.04

[마스터 알고리즘] 1-2장 마스터 알고리즘은 가능한가?

#마스터 알고리즘 the master algorithm  #페드로 도밍고스 Pedro Domingos 오늘 TIL 3줄 요약마스터 알고리즘은 .. 뇌의 가소성을 현실화 하고 싶다는 것 같음. 어떤 내요이든지 학습하며, 응용하고 예측하게 만든다는 것은........ 인간의 뇌를 만들고 싶다는 것으로 들림...흠.. 범용....까진 모르겠고 가까워질 수는 있을 듯. 아마도?머신러닝의 학습이 .. 그냥 데이터를 넣는 게 아니라 더 큰 것(마스터 알고리즘.. 뇌?)을 보고 있다는 사실이 매우 흥미로웠음. 컴공의 '마스터 알고리즘'은 마치 심리학의 궁극적 목적인 '치매 치료제? 검사제(예방)'처럼 들림. TIL (Today I Learned) 날짜2024. 06. 27 오늘 읽은 범위1장. 머신러닝의 혁명이 시작..

book 2024.06.27

[데이터 전처리] 원하는 시간 간격으로 묶기 .resample()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .resample() - 일자 별로 합계나 평균을 계산해서 보고 싶을 때 사용.- datetime이 인덱스로 설정되어 있어야 함.  - 일단, 인덱스로 설정하기  order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])order_df = order_df.dropna()#인덱스 설정order_df = order_df.set_index('order_time')order_df -->  order_ time이 인덱스가 됨.        - .resample()에 인자로 기준값을 넣어주면 됨. - 원하는 시간 간격 기준을 넣으면 됨 --> 'D' ; 하루, 'M' ; 월,..

Data Science/Pandas 2024.06.26

[데이터 전처리] 피벗 테이블 .pivot_table()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .pivot_table() - groupby랑 유사하게 같은 그룹끼리 묶어서 값 비교 가능  - 피봇은 좀 더 깔끔하게 생긴 표 형태로 데이터를 요약 가능,- but, 인덱스나 칼럼에 들어가는 값들이 너무 많은 경우엔 그룹바이보다 가독성이 떨어짐. - 피봇보다 그룹바이의 계산 속도가 더 빠르기 때문에 데이터가 엄청 클 경우에는 그룹바이가 더 나음.--> 둘 중에 상황에 따라 쓰면 될 듯. - 넷플릭스 컨텐츠의 연도와 장르에 따른 점수의 평균을 보고자 할 때,- groupby는 행에 연도와 장르를 넣음. netflix_df.groupby(['year', 'genre'])['score'].mean()#값year genre 2019 Comedy..

카테고리 없음 2024.06.26

[데이터 전처리] 그룹 별로 분석하기 groupby(), category 타입, 멀티 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .groupby() - 같은 그룹끼리 묶어서 값 비교 가능  - 넷플릭스에서 장르 별로 값을 비교 하고 싶을때netflix_df = pd.read_csv('data/netflix.csv')netflix_df --> 이런 데이터임       - 일단 결측치랑 간단한 통계 값 확인 #일단 결측치부터 확인 netflix_df.info()# 간단한 통계 값도 확인 netflix_df.describe() - 장르별로 구분되도록 나누기  --> 뒤에 계산식을 넣지 않으면 groupby가 적용되었다고만 나타남. netflix_df.groupby('genre')#값 - 장르별 값 확인 netflix_df.groupby('genre').count() #결측 값 제외 --..

Data Science/Pandas 2024.06.26

[데이터 전처리] 데이터 합치기) 같은 형식 concat() / 칼럼 기준 merge() / 인덱스 기준 join()

# 코드잇 데이터 사이언티스트 강의 듣는 중 - pd.concat() - 같은 변수를 합칠 때 import pandas as pdenglish_df1 = pd.DataFrame({ 'name': ['dongwook', 'taeho', 'jimin'], 'english_score': [50, 89, 68]})english_df2 = pd.DataFrame({ 'name': ['yoonseo', 'sowon', 'haeun'], 'english_score': [88, 91, 72]}) --> english_df1    --> english_df2 --> 2개의 형식이 같기에 그냥 합치는 게 나음 pd.concat([english_df1, english_df2]) --> 디폴트가 행으로 ..

Data Science/Pandas 2024.06.25

[데이터 전처리] 날짜와 시간 데이터 인덱싱하기/ 더하기 빼기, 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 불린 인덱싱을 하려면 datetime이 인덱스가 되어 있어야 함. - .set_index()#datetime으로 불러오기order_df = pd.read_csv('data/order.csv', parse_dates =['order_time', 'shipping_time'])#미리 불러왔으면, 데이터타입만 변경delivery_df['order_time'] = pd.to_datetime(delivery_df['order_time']#인덱스로 지정order_df.set_index('order_time')  -->보면 시간이 순서대로 정렬되어 있지 않음.        - 정렬시켜줌order_df = order_df.set_index('order_time').sor..

Data Science/Pandas 2024.06.24

[데이터 전처리] 날짜와 시간 데이터 타입 설정하기, datetime

# 코드잇 데이터 사이언티스트 강의 듣는 중 --> 데이터 프레임에 날짜와 시간이 들어가 있을 때, 데이터 타입을 확인해 보면 대체로 object임.  --> 그런데 이러면 원하는 대로 시간과 날짜를 인덱싱하기가 불편함.   order_df.dtypes     - pd.to_datetime()- 판다스에 메소드로 지정하고 해당하는 벡터를 ()안에 넣으면 됨. pd.to_datetime(order_df['order_time']) --> dtypes가 datetime으로 바뀜.       - but, 1개 값만 불러오면 타입이 달라짐. pd.to_datetime(order_df['order_time'])[0] --> timestamp가 나타남.  - datetime, timestamp 모두 어떤 시점에 날짜..

Data Science/Pandas 2024.06.24

[데이터 전처리] 데이터 구간화 cut() or apply(), 람다함수와 apply()

# 코드잇 데이터 사이언티스트 강의 듣는 중  - 연속적 숫자 데이터를 여러 구간으로 분류      - 우선 구획화하고 싶은 값의 최소/최대값을 확인patient_df['age'].describe() --> 최소 20, 최대 69--> 즉 20대부터 총 60대까지로 구성     - pd.cut()- pd의 메소드임. 파라미터로 여러가지 조건들을 계속 넣어줄 수 있음. - bins = --> 구간 설정 시 사용pd.cut(patient_df['age'], bins=[20, 30, 40, 50, 60, 70]) --> 옆에처럼 나눠주고 싶은 구간을 지정(연령대)해도 되고,그냥 숫자를 넣으면 (예, 3) 그 수만큼 알아서 나눠주기도 함.      patient_df['age_group'] = pd.cut(pa..

Data Science/Pandas 2024.06.21
728x90
반응형