DS가 되기 위한 여정 👩‍💻
728x90
반응형

Data Science 109

[elice 통계] 추론 및 가설검정 (이산확률 분포)

*elice 강의안- 이항 분포가 정규분포로 넘어가는 과정도 볼 것. -> 동전던지기나 주사위 던지기로 생각하면 됨. -> 베르누이 실행은 그냥 경우의 수는 2개라고 생각하고 각각 독립이라서 각각의 확률이 p는 1-p가 됨. - 이항분포랑 정규분포는 이해하고 넘어가야 함!!- 갑자기 조합이 나오네..- 아 이게 조합이.. 기억이 잘 안나는데.. - 조합은 n개중에서 r개를 고르는 경우의 수 => 그니깐 위처럼 괄호 안의 위아래로 두는 것이 조합의 표기임.(n)(r) = n! / r!(n-r)! - ... 와 파스칼의 삼각형 처음 들어봤는데 직작에 알았으면 저거 썼을 텐데 싶다..- 아 이게 그니깐 2개 중 x개를 2개 골라야 하니깐 y는 0개 골라서 2C0- 2xy는 2개를 뽑는데 y는 1개고 - ..

[elice 통계] 확률(사건/확률, 순열/조합, 조건부확률/독립, 확률분포)

*elice 강의안- 배반은 관계를 의미하는 것으로 a와 b는 상호배반이라고 주로 이야기함. - 재귀함수: 자기 자신을 호출하는 것 - 공리: 누구나 다 참으로 받아들이는 것- 숫자 간 가림막이 있다고 생각했을 때, 뽑힌 순서는 중요하지 않기 때문에 가림막의 개수에 따라서만 달라짐. - 위치는 상관이 없음. 어떻게든 3개만 뽑으면 되는 거라서- 색칠된 박스가 가림막이라고 생각하면 6개의 칸 중에서 3개의 가림막이 있다고 가정하는 것이 중복조합과 같음. - 결국 n+r-1Cr 이 서로 다른 n개의 대상 중 중복허을 허용해 r개를 순서 고려 없이 뽑는 경우를 의미함- 이산확률 변수인 경우 명확한 값이 있으니깐 확률 질량 함수가 됨. - 이항분포 특히 기억할 것. - 확률밀도함수에서는 구간에 대한 값을 가질 ..

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

*elice 강의안- 수염의 길이로 데이터의 분포도 확인이 가능함. - 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..import numpy as np import pandas as pdimport matplotlib as plt# 데이터 불러오기mart = pd.read_csv("mart.csv")print(mart)# Q1.지역별로 선호하는 마트region_crosstab = pd.crosstab(mart["region"], mart["mart"])print(region_crosstab)# Q2. 가족구성원의 수별로 선호하는 마트famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])print(famnum_..

[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표)

*elice 강의안 - 이미 통계에 많이 접한 사람들은 저런 낚는 용에 넘어가지 않음. - 모수는 다른 것이 될 수도 있지만, 중심위치와 퍼진 정도를 중요하게 생각함. - so, 양 극단(최대, 최소)를 빼고 평균을 내기도 함. - 새로 들어온 값 있을 때마다 다시 확인해야 하기 때문에 잘 사용하지 않음.- 특히, 데이터 값이 많을 수록 자주 사용하지 않음. - 최빈값은 넘파이에 없음. scipy의 stats를 가지고 와야 함. - stats.mode()import numpy as npfrom scipy import statscoffee = np.array([202, 177, 121, 148, 89, 121, 137, 158])# 최빈값 계산cf_mode = stats.mode(coffee)print(..

[elice 통계] 자료의 형태, 범주형/수치형 자료

*elice 강의안 - pie차트랑 반대 - 줄기-잎 그림은 관측값의 개수가 많은 경우, 지나치게 흩어진 경우 효과적으로 나타내기가 어려움.- 금리에서 많이 쓴다고 함.. => 중복된 값 파악에 좋음- 계급의 폭은.. 개인차가 있음. 근데 거의 루트n+3으로 함- 사람들이 178, 179가 180으로 대답하는 경향이 있으면 180 구간의 값이 많아지기 때문에 이럴 때는 175-184 구간으로 나누는 것이 더 적절할 수 있음. - 줄기 기준으로 나눠서 끊어줌. 이건 개인이 선택할 수 있음. - 그림을 그려서 돌려놓으면 히스토그램과 유사한데, 히스토그램과 달리 개별 정보를 다 가지고 있음.

[elice pandas] 데이터 변환 (map(), apply(), lambda 함수) , 데이터 요약/추출

* elice 강의안 - .map()을 python에서 매핑 해주는 것과 달리 pandas에서는 df의 특정 열 전체를 바꾸는데 사용 - apply()는 똑같이 함수 적용할 때 씀- 변환 할 때마다 함수를 지정해줘야 함..- 그럼 코드 더러워지니깐 lambda 씀- 위처럼 합쳐서 코드 짜면됨. - 와,, 함수 값을 그대로 df에 넣을 수 있는지는 몰랐음. - group by 주의할 것 [Boolean indexing] [loc]- loc를 사용할 때는 [인덱스 이름, 컬럼이름] 순서임. - 불리안 인덱싱 할 땐 "인덱스 이름" 위치에 넣어야 함. [iloc]연속적인 객체(데이터프레임의 인덱스) 범위를 지정해 가져오는 방법인 슬라이싱을 활용하면 범위를 지정하여 해당 범위에 해당하는 데이터들을 불러올 수..

Data Science/Pandas 2025.05.12

[elice pandas] ',' , '-' replace 간단하게 하기, 형변환

*elice 강의안 - object type을 int로 바꾸기 위한 강의 내용 중에서 코드가 진짜 간단해서 적어둠. - 매번 할 때마다 헷갈리는 건데 아래처럼 하면 될 듯. `info()`를 사용해 데이터의 타입을 확인해보면 모든 데이터가 수가 아닌 텍스트(Object) 타입으로 저장되어 있습니다. 이는 즉 데이터에 있는 3,359는 숫자 3359가 아닌 텍스트 "3,359"가 저장되어있는 상태입니다. 이 상태로는 숫자의 연산, 나아가 평균값과 같은 통계량을 측정할 수 없습니다. 따라서 우리는 이 텍스트(Object)들을 모두 **정수형(int)** 으로 바꾸어야 합니다. 정수형으로 바꾸기 위해선 텍스트에서 숫자만을 남기고 모두 제거해야 합니다. 이를 위해 숫자로 바꾸어야 하는 컬럼들에서 `str.re..

Data Science/Pandas 2025.05.12
728x90
반응형