자신에게 친절할 것 :)
728x90
반응형

2024/06/02 3

[Statistics] 상관 계수, .corr(), scatterplot(), regplot(), sns.heatmap()

# 코드잇 데이터 사이언스 강의 듣는 중  - 여러 상관 계수가 있지만, 피어슨 Pearson 상관 계수를 많이 씀. 1) 범위: -1 2)  피어슨 Pearson 상관 계수 = 0 --> 상관이 없음. 3)  피어슨 Pearson 상관 계수 = +- 1 --> 강한 상관4) 1 > 피어슨 Pearson 상관 계수 > 0 : 정적 상관; x가 커지면 y가 증가        5) -1 피어슨 Pearson 상관 계수        ++++ --> 피어슨 상관계수 --> x,y의 공분산 값을 각각의 표준편차의 곱으로 나눠준 것  공분산 covariance> --> 각 값의 편차끼리 곱한 값을 n수로 나누어 준 것으로 변수의 관계의 방향성과 강도를 측정할 때 사용 가능함.  - 즉, 같이 움직이는 경향성임. 편..

Statistics 2024.06.02

[Statistics] mean, median, Q1, Q3, outlier, mode, .describe()

# 코드잇 데이터 사이언스 강의 듣는 중 - data에 따라서 대표치를 어떤 것으로 볼 지가 달라짐.- outlier가 크면, median은 mean보다 outlier의 영향을 덜 받기 때문에 사용- but, median은 전체 값의 분포가 달라져도 같을 수 있지만, mean은 값에 영향을 받기 때문에 median이 다 같으면 mean 더 좋은 대표치가 됨.  --> numerical(수치형) data는 mean, median, mode를 구할 수 있음 - but categorical(범주형) data는 mean, median을 구할 수 없기에 mode가 대표치가 됨.  + 수치형 데이터는 1) 이산형데이터 (값이 정확히 떨어짐; 오늘 마신 아메의 갯수) 와2) 연속형 데이터 (값이 정확하지 않음; 추정..

Statistics 2024.06.02

[Seaborn] dist plot, violin plot, 등고선, lm plot, cat plot, strip plot

# 코드잇 데이터 사이언스 강의 듣는 중  - seaborn을 쓰면 matplotlib 보다 더 적은 코드로 근사한 그래프를 그릴 수 있음. - statisctical data visualizaton 통계 기반 데이터 시각화 툴임. - 간편하게 근사한 그래프를 원하면 seaborn을 쓰고 원하는대로 커스텀해서 그래프를 만들고 싶으면 matplotlib을 쓰면 됨.    - seaborn 라이브러리에서 KDE를 하여 그래프를 매끄럽게 조정할 수 있음.- 이게 뭐지 했었는데..?- 심리통계에서도 매일 쓰는 것이 확률밀도 함수였지만, 그 자체보다는 유의확률에 따라 기각 여부에만 집중했었기 때문에 그냥 조정된 KDE그래프만 봐서 모른 것이었음. 그것도 그냥 데이터가 무한대라고 가정하고 그래프를 추출하는 것이다라..

728x90
반응형