자신에게 친절할 것 :)
728x90
반응형

전체 글 116

[마스터 알고리즘] 1-2장 마스터 알고리즘은 가능한가?

#마스터 알고리즘 the master algorithm  #페드로 도밍고스 Pedro Domingos 오늘 TIL 3줄 요약마스터 알고리즘은 .. 뇌의 가소성을 현실화 하고 싶다는 것 같음. 어떤 내요이든지 학습하며, 응용하고 예측하게 만든다는 것은........ 인간의 뇌를 만들고 싶다는 것으로 들림...흠.. 범용....까진 모르겠고 가까워질 수는 있을 듯. 아마도?머신러닝의 학습이 .. 그냥 데이터를 넣는 게 아니라 더 큰 것(마스터 알고리즘.. 뇌?)을 보고 있다는 사실이 매우 흥미로웠음. 컴공의 '마스터 알고리즘'은 마치 심리학의 궁극적 목적인 '치매 치료제? 검사제(예방)'처럼 들림. TIL (Today I Learned) 날짜2024. 06. 27 오늘 읽은 범위1장. 머신러닝의 혁명이 시작..

book 2024.06.27

[데이터 전처리] 원하는 시간 간격으로 묶기 .resample()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .resample() - 일자 별로 합계나 평균을 계산해서 보고 싶을 때 사용.- datetime이 인덱스로 설정되어 있어야 함.  - 일단, 인덱스로 설정하기  order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])order_df = order_df.dropna()#인덱스 설정order_df = order_df.set_index('order_time')order_df -->  order_ time이 인덱스가 됨.        - .resample()에 인자로 기준값을 넣어주면 됨. - 원하는 시간 간격 기준을 넣으면 됨 --> 'D' ; 하루, 'M' ; 월,..

Data Science/Pandas 2024.06.26

[데이터 전처리] 피벗 테이블 .pivot_table()

# 코드잇 데이터 사이언티스트 강의 듣는 중- .pivot_table() - groupby랑 유사하게 같은 그룹끼리 묶어서 값 비교 가능  - 피봇은 좀 더 깔끔하게 생긴 표 형태로 데이터를 요약 가능,- but, 인덱스나 칼럼에 들어가는 값들이 너무 많은 경우엔 그룹바이보다 가독성이 떨어짐. - 피봇보다 그룹바이의 계산 속도가 더 빠르기 때문에 데이터가 엄청 클 경우에는 그룹바이가 더 나음.--> 둘 중에 상황에 따라 쓰면 될 듯. - 넷플릭스 컨텐츠의 연도와 장르에 따른 점수의 평균을 보고자 할 때,- groupby는 행에 연도와 장르를 넣음. netflix_df.groupby(['year', 'genre'])['score'].mean()#값year genre 2019 Comedy..

카테고리 없음 2024.06.26

[데이터 전처리] 그룹 별로 분석하기 groupby(), category 타입, 멀티 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중  - .groupby() - 같은 그룹끼리 묶어서 값 비교 가능  - 넷플릭스에서 장르 별로 값을 비교 하고 싶을때netflix_df = pd.read_csv('data/netflix.csv')netflix_df --> 이런 데이터임       - 일단 결측치랑 간단한 통계 값 확인 #일단 결측치부터 확인 netflix_df.info()# 간단한 통계 값도 확인 netflix_df.describe() - 장르별로 구분되도록 나누기  --> 뒤에 계산식을 넣지 않으면 groupby가 적용되었다고만 나타남. netflix_df.groupby('genre')#값 - 장르별 값 확인 netflix_df.groupby('genre').count() #결측 값 제외 --..

Data Science/Pandas 2024.06.26

[데이터 전처리] 데이터 합치기) 같은 형식 concat() / 칼럼 기준 merge() / 인덱스 기준 join()

# 코드잇 데이터 사이언티스트 강의 듣는 중 - pd.concat() - 같은 변수를 합칠 때 import pandas as pdenglish_df1 = pd.DataFrame({ 'name': ['dongwook', 'taeho', 'jimin'], 'english_score': [50, 89, 68]})english_df2 = pd.DataFrame({ 'name': ['yoonseo', 'sowon', 'haeun'], 'english_score': [88, 91, 72]}) --> english_df1    --> english_df2 --> 2개의 형식이 같기에 그냥 합치는 게 나음 pd.concat([english_df1, english_df2]) --> 디폴트가 행으로 ..

Data Science/Pandas 2024.06.25

[데이터 전처리] 날짜와 시간 데이터 인덱싱하기/ 더하기 빼기, 불린 인덱싱

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 불린 인덱싱을 하려면 datetime이 인덱스가 되어 있어야 함. - .set_index()#datetime으로 불러오기order_df = pd.read_csv('data/order.csv', parse_dates =['order_time', 'shipping_time'])#미리 불러왔으면, 데이터타입만 변경delivery_df['order_time'] = pd.to_datetime(delivery_df['order_time']#인덱스로 지정order_df.set_index('order_time')  -->보면 시간이 순서대로 정렬되어 있지 않음.        - 정렬시켜줌order_df = order_df.set_index('order_time').sor..

Data Science/Pandas 2024.06.24

[데이터 전처리] 날짜와 시간 데이터 타입 설정하기, datetime

# 코드잇 데이터 사이언티스트 강의 듣는 중 --> 데이터 프레임에 날짜와 시간이 들어가 있을 때, 데이터 타입을 확인해 보면 대체로 object임.  --> 그런데 이러면 원하는 대로 시간과 날짜를 인덱싱하기가 불편함.   order_df.dtypes     - pd.to_datetime()- 판다스에 메소드로 지정하고 해당하는 벡터를 ()안에 넣으면 됨. pd.to_datetime(order_df['order_time']) --> dtypes가 datetime으로 바뀜.       - but, 1개 값만 불러오면 타입이 달라짐. pd.to_datetime(order_df['order_time'])[0] --> timestamp가 나타남.  - datetime, timestamp 모두 어떤 시점에 날짜..

Data Science/Pandas 2024.06.24

[데이터 전처리] 데이터 구간화 cut() or apply(), 람다함수와 apply()

# 코드잇 데이터 사이언티스트 강의 듣는 중  - 연속적 숫자 데이터를 여러 구간으로 분류      - 우선 구획화하고 싶은 값의 최소/최대값을 확인patient_df['age'].describe() --> 최소 20, 최대 69--> 즉 20대부터 총 60대까지로 구성     - pd.cut()- pd의 메소드임. 파라미터로 여러가지 조건들을 계속 넣어줄 수 있음. - bins = --> 구간 설정 시 사용pd.cut(patient_df['age'], bins=[20, 30, 40, 50, 60, 70]) --> 옆에처럼 나눠주고 싶은 구간을 지정(연령대)해도 되고,그냥 숫자를 넣으면 (예, 3) 그 수만큼 알아서 나눠주기도 함.      patient_df['age_group'] = pd.cut(pa..

Data Science/Pandas 2024.06.21

[데이터 전처리] 새로운 값 계산하기, 정규화, 표준화, 과학적 표기법

# 코드잇 데이터 사이언티스트 강의 듣는 중 - 이건 그냥 벡터끼리 계산해서 새로운 변수 만들 수 있음- 예제에서 비만율과의 연관성을 보기 위해서 허리 엉덩이 둘레 비율 변수를 새로 만든 것처럼 가능. + 심리학 연구에서는 거의 측정도구가 거의 검사survey였기 때문에,벡터끼리 계산해서 각 척도 별 총점 혹은, 하위 척도의 총점을 구했고, 당연히 그걸 활용해서 통계를 돌렸음.  patient_df['waist']/patient_df['hip'] --> 수를 확인하기가 어려움.       - 반올림- round(값, 자리 수) #둘째 자리까지 반올림round(patient_df['waist']/patient_df['hip'], 2) --> 소수점 둘째 자리까지 반올림 된 것.        - 걍 벡터 만..

Data Science/Pandas 2024.06.20

[오픽 6-6 시험 후기] 한 문제 시간 조절 실패ㅜ 하나 스킵 첫 시험 IH..ㅜㅠ

#오픽 6-6 시험 후기 이번이 태어나서 처음으로 본 오픽 시험이었다. 환승지에서 버스가 안 와서 진짜...30분까지 입실인데 와.....30분에 내려서 못 들어가면 어떻게 하지.. 하면서 엄청 뛰었다 ㅠㅠ 다행히, 2분 정도만 지각했고,나를 겁먹게 한 일주일 전 카톡 공지 ("지각 시 입실 불가")처럼 감독자님이 까다롭게 보시지 않았다. + 이것은 시험 센터와 감독자님의 성향에 따라 달라질 수 있으니.. 꼭 지각하지 마세요. ㅎ 또, 40분까지 화장실 갔다오라셔서 좀 진정 될 수 있었다. 하지만,, 여전히 뛰는 심장으로 시험을 시작했다.  나는 전주상공회의소에서 시험을 봤고,함께 시험 본 인원이 총 4-5명으로 작은 편이었고 강의실은 꽤 컸었다. 오티는 한 15분 정도로 20분보다는 짧았고, 40분 타..

Blah Blah 2024.06.19
728x90
반응형