DS가 되기 위한 여정 👩‍💻
728x90
반응형

2025/05 30

[데이터 사이언티스트 직무부트캠프 후기] 코멘토 DS 과정 매우 추천

본 후기는 직무부트캠프를 직접 구매하고 수강한 후 작성하였으며, 후기 작성 이벤트에 참여하여 소정의 원고료를 받았습니다. - 이미 끝난 지 2달이 가까워져 가지만 이제서야 후기를 쓰게 되었다. - 그만큼 굉장히 만족스러웠고, 현재는 다른 캠프를 신청해뒀으며, 2주 후부터 시작할 예정이다. [직무부트캠프 수강 계기]- '멀티캠퍼스'의 6개월짜리 부트캠프 수료 후에 취업설명회 등을 듣다가 코멘토 제휴쿠폰을 받게 되어 신청하였다. - 부트캠프에서는 대개 1~2개 정도의 프로젝트를 하게 되는데, 이것으로 포트폴리오를 채우기에는 너무나 부족하다.- 이에 프로젝트도 채울 겸 직무에 대한 경험도 늘릴 겸 신청하게 되었다. ["데이터사이언티스트와 함께하는 인공지능 프로젝트 A to Z : 모델링부터 서빙까지"..

Blah Blah 2025.05.24

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

*elice 강의안- 수염의 길이로 데이터의 분포도 확인이 가능함. - 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..import numpy as np import pandas as pdimport matplotlib as plt# 데이터 불러오기mart = pd.read_csv("mart.csv")print(mart)# Q1.지역별로 선호하는 마트region_crosstab = pd.crosstab(mart["region"], mart["mart"])print(region_crosstab)# Q2. 가족구성원의 수별로 선호하는 마트famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])print(famnum_..

[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표)

*elice 강의안 - 이미 통계에 많이 접한 사람들은 저런 낚는 용에 넘어가지 않음. - 모수는 다른 것이 될 수도 있지만, 중심위치와 퍼진 정도를 중요하게 생각함. - so, 양 극단(최대, 최소)를 빼고 평균을 내기도 함. - 새로 들어온 값 있을 때마다 다시 확인해야 하기 때문에 잘 사용하지 않음.- 특히, 데이터 값이 많을 수록 자주 사용하지 않음. - 최빈값은 넘파이에 없음. scipy의 stats를 가지고 와야 함. - stats.mode()import numpy as npfrom scipy import statscoffee = np.array([202, 177, 121, 148, 89, 121, 137, 158])# 최빈값 계산cf_mode = stats.mode(coffee)print(..

[Essence of linear algebra] ch.7 Inverse matrices, column space and null space

https://www.youtube.com/watch?v=uQhTuRlWMxw&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=7 "To ask the right question is harder than to answer it."— Georg Cantor - 진실로 질문이 정확해야 답이 더 쉽게 나오니깐.- 오랜만에 들어서 기억이 날 지 모르겠다..ㅎ [선형 방정식계 Linear stystem of equations]- 선형대수는 공간의 조작으로 생각할 수 있게 하기 때문에 매우 유용함. => 선형대수는 어떤 방정식계이든 해결할 수 있음. - 방정식계(systems of equations): 미지수인 변수 리스트와 변수들과 관련된 방정식의 리스트를 가졌을 때를 의미함..

[elice 통계] 자료의 형태, 범주형/수치형 자료

*elice 강의안 - pie차트랑 반대 - 줄기-잎 그림은 관측값의 개수가 많은 경우, 지나치게 흩어진 경우 효과적으로 나타내기가 어려움.- 금리에서 많이 쓴다고 함.. => 중복된 값 파악에 좋음- 계급의 폭은.. 개인차가 있음. 근데 거의 루트n+3으로 함- 사람들이 178, 179가 180으로 대답하는 경향이 있으면 180 구간의 값이 많아지기 때문에 이럴 때는 175-184 구간으로 나누는 것이 더 적절할 수 있음. - 줄기 기준으로 나눠서 끊어줌. 이건 개인이 선택할 수 있음. - 그림을 그려서 돌려놓으면 히스토그램과 유사한데, 히스토그램과 달리 개별 정보를 다 가지고 있음.

[elice pandas] 데이터 변환 (map(), apply(), lambda 함수) , 데이터 요약/추출

* elice 강의안 - .map()을 python에서 매핑 해주는 것과 달리 pandas에서는 df의 특정 열 전체를 바꾸는데 사용 - apply()는 똑같이 함수 적용할 때 씀- 변환 할 때마다 함수를 지정해줘야 함..- 그럼 코드 더러워지니깐 lambda 씀- 위처럼 합쳐서 코드 짜면됨. - 와,, 함수 값을 그대로 df에 넣을 수 있는지는 몰랐음. - group by 주의할 것 [Boolean indexing] [loc]- loc를 사용할 때는 [인덱스 이름, 컬럼이름] 순서임. - 불리안 인덱싱 할 땐 "인덱스 이름" 위치에 넣어야 함. [iloc]연속적인 객체(데이터프레임의 인덱스) 범위를 지정해 가져오는 방법인 슬라이싱을 활용하면 범위를 지정하여 해당 범위에 해당하는 데이터들을 불러올 수..

Data Science/Pandas 2025.05.12

[elice pandas] ',' , '-' replace 간단하게 하기, 형변환

*elice 강의안 - object type을 int로 바꾸기 위한 강의 내용 중에서 코드가 진짜 간단해서 적어둠. - 매번 할 때마다 헷갈리는 건데 아래처럼 하면 될 듯. `info()`를 사용해 데이터의 타입을 확인해보면 모든 데이터가 수가 아닌 텍스트(Object) 타입으로 저장되어 있습니다. 이는 즉 데이터에 있는 3,359는 숫자 3359가 아닌 텍스트 "3,359"가 저장되어있는 상태입니다. 이 상태로는 숫자의 연산, 나아가 평균값과 같은 통계량을 측정할 수 없습니다. 따라서 우리는 이 텍스트(Object)들을 모두 **정수형(int)** 으로 바꾸어야 합니다. 정수형으로 바꾸기 위해선 텍스트에서 숫자만을 남기고 모두 제거해야 합니다. 이를 위해 숫자로 바꾸어야 하는 컬럼들에서 `str.re..

Data Science/Pandas 2025.05.12
728x90
반응형