728x90
*elice 강의안
- 수염의 길이로 데이터의 분포도 확인이 가능함.
- 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..
import numpy as np
import pandas as pd
import matplotlib as plt
# 데이터 불러오기
mart = pd.read_csv("mart.csv")
print(mart)
# Q1.지역별로 선호하는 마트
region_crosstab = pd.crosstab(mart["region"], mart["mart"])
print(region_crosstab)
# Q2. 가족구성원의 수별로 선호하는 마트
famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])
print(famnum_crosstab)
############### 결과
mart costco emart homeplus lotte
region
chungcheong 3 2 1 1
gangwon 1 3 3 2
gyeongsang 0 1 2 7
gyonggi 0 4 2 3
jeolla 2 2 3 0
seoul 2 2 3 1
mart costco emart homeplus lotte
family_num
1 1 4 5 1
2 2 4 3 5
3 2 1 3 2
4 2 3 3 3
5 1 2 0 3
- 기울기가 높다고 상관계수가 높은 게 아니라, 그냥 직선이면 상관계수가 높은 것.
-> 값이 정확히 떨어지는 거니깐
- 직선과 값들의 거리가 멀기 때문에 (오차가 크기 때문에) 상관계수가 0에 가까울 확률이 큼
- 산점도 봤을 때 난리면 상관계수 안 써도 됨.
-> 상관 떴다고 다 뜬게 아님. 제 3변수 영향 확인
728x90
반응형
'Data Science > Statistics' 카테고리의 다른 글
[elice 통계] 확률 (0) | 2025.05.28 |
---|---|
[elice 통계] 논리적 자료의 요약(평균, 중간값, 최빈값, 분산, 사분위수, cv, 도수분포표) (0) | 2025.05.23 |
[elice 통계] 자료의 형태, 범주형/수치형 자료 (0) | 2025.05.21 |
[기초통계] 누적 값 계산하기, .cumsum(), .cumprod() (2) | 2024.06.12 |
[기초통계] 분산과 표준편차 (2) | 2024.06.11 |