DS가 되기 위한 여정 👩‍💻
728x90
반응형

분류 전체보기 248

[elice 통계] 추론 및 가설검정 (이산확률 분포)

*elice 강의안- 이항 분포가 정규분포로 넘어가는 과정도 볼 것. -> 동전던지기나 주사위 던지기로 생각하면 됨. -> 베르누이 실행은 그냥 경우의 수는 2개라고 생각하고 각각 독립이라서 각각의 확률이 p는 1-p가 됨. - 이항분포랑 정규분포는 이해하고 넘어가야 함!!- 갑자기 조합이 나오네..- 아 이게 조합이.. 기억이 잘 안나는데.. - 조합은 n개중에서 r개를 고르는 경우의 수 => 그니깐 위처럼 괄호 안의 위아래로 두는 것이 조합의 표기임.(n)(r) = n! / r!(n-r)! - ... 와 파스칼의 삼각형 처음 들어봤는데 직작에 알았으면 저거 썼을 텐데 싶다..- 아 이게 그니깐 2개 중 x개를 2개 골라야 하니깐 y는 0개 골라서 2C0- 2xy는 2개를 뽑는데 y는 1개고 - ..

[elice 통계] 확률(사건/확률, 순열/조합, 조건부확률/독립, 확률분포)

*elice 강의안- 배반은 관계를 의미하는 것으로 a와 b는 상호배반이라고 주로 이야기함. - 재귀함수: 자기 자신을 호출하는 것 - 공리: 누구나 다 참으로 받아들이는 것- 숫자 간 가림막이 있다고 생각했을 때, 뽑힌 순서는 중요하지 않기 때문에 가림막의 개수에 따라서만 달라짐. - 위치는 상관이 없음. 어떻게든 3개만 뽑으면 되는 거라서- 색칠된 박스가 가림막이라고 생각하면 6개의 칸 중에서 3개의 가림막이 있다고 가정하는 것이 중복조합과 같음. - 결국 n+r-1Cr 이 서로 다른 n개의 대상 중 중복허을 허용해 r개를 순서 고려 없이 뽑는 경우를 의미함- 이산확률 변수인 경우 명확한 값이 있으니깐 확률 질량 함수가 됨. - 이항분포 특히 기억할 것. - 확률밀도함수에서는 구간에 대한 값을 가질 ..

[데이터 사이언티스트 직무부트캠프 후기] 코멘토 DS 과정 매우 추천

본 후기는 직무부트캠프를 직접 구매하고 수강한 후 작성하였으며, 후기 작성 이벤트에 참여하여 소정의 원고료를 받았습니다. - 이미 끝난 지 2달이 가까워져 가지만 이제서야 후기를 쓰게 되었다. - 그만큼 굉장히 만족스러웠고, 현재는 다른 캠프를 신청해뒀으며, 2주 후부터 시작할 예정이다. [직무부트캠프 수강 계기]- '멀티캠퍼스'의 6개월짜리 부트캠프 수료 후에 취업설명회 등을 듣다가 코멘토 제휴쿠폰을 받게 되어 신청하였다. - 부트캠프에서는 대개 1~2개 정도의 프로젝트를 하게 되는데, 이것으로 포트폴리오를 채우기에는 너무나 부족하다.- 이에 프로젝트도 채울 겸 직무에 대한 경험도 늘릴 겸 신청하게 되었다. ["데이터사이언티스트와 함께하는 인공지능 프로젝트 A to Z : 모델링부터 서빙까지"..

Blah Blah 2025.05.24

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

*elice 강의안- 수염의 길이로 데이터의 분포도 확인이 가능함. - 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..import numpy as np import pandas as pdimport matplotlib as plt# 데이터 불러오기mart = pd.read_csv("mart.csv")print(mart)# Q1.지역별로 선호하는 마트region_crosstab = pd.crosstab(mart["region"], mart["mart"])print(region_crosstab)# Q2. 가족구성원의 수별로 선호하는 마트famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])print(famnum_..

[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표)

*elice 강의안 - 이미 통계에 많이 접한 사람들은 저런 낚는 용에 넘어가지 않음. - 모수는 다른 것이 될 수도 있지만, 중심위치와 퍼진 정도를 중요하게 생각함. - so, 양 극단(최대, 최소)를 빼고 평균을 내기도 함. - 새로 들어온 값 있을 때마다 다시 확인해야 하기 때문에 잘 사용하지 않음.- 특히, 데이터 값이 많을 수록 자주 사용하지 않음. - 최빈값은 넘파이에 없음. scipy의 stats를 가지고 와야 함. - stats.mode()import numpy as npfrom scipy import statscoffee = np.array([202, 177, 121, 148, 89, 121, 137, 158])# 최빈값 계산cf_mode = stats.mode(coffee)print(..

[Essence of linear algebra] ch.7 Inverse matrices, column space and null space

https://www.youtube.com/watch?v=uQhTuRlWMxw&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=7 "To ask the right question is harder than to answer it."— Georg Cantor - 진실로 질문이 정확해야 답이 더 쉽게 나오니깐.- 오랜만에 들어서 기억이 날 지 모르겠다..ㅎ [선형 방정식계 Linear stystem of equations]- 선형대수는 공간의 조작으로 생각할 수 있게 하기 때문에 매우 유용함. => 선형대수는 어떤 방정식계이든 해결할 수 있음. - 방정식계(systems of equations): 미지수인 변수 리스트와 변수들과 관련된 방정식의 리스트를 가졌을 때를 의미함..

[elice 통계] 자료의 형태, 범주형/수치형 자료

*elice 강의안 - pie차트랑 반대 - 줄기-잎 그림은 관측값의 개수가 많은 경우, 지나치게 흩어진 경우 효과적으로 나타내기가 어려움.- 금리에서 많이 쓴다고 함.. => 중복된 값 파악에 좋음- 계급의 폭은.. 개인차가 있음. 근데 거의 루트n+3으로 함- 사람들이 178, 179가 180으로 대답하는 경향이 있으면 180 구간의 값이 많아지기 때문에 이럴 때는 175-184 구간으로 나누는 것이 더 적절할 수 있음. - 줄기 기준으로 나눠서 끊어줌. 이건 개인이 선택할 수 있음. - 그림을 그려서 돌려놓으면 히스토그램과 유사한데, 히스토그램과 달리 개별 정보를 다 가지고 있음.

728x90
반응형