DS가 되기 위한 여정 👩‍💻

Data Science/Statistics

[elice 통계] 상자 그림 box plot, 두 변수 범주형 요약: 분할표(crosstab), 두 변수 수치형 요약: 산점도, 공분산, 상관계수

Tashapark 2025. 5. 24. 00:15
728x90

*elice 강의안

- 수염의 길이로 데이터의 분포도 확인이 가능함. 


 

- 이게 sql할 때 이중 그룹바이였나.. 하여간 좀 복잡하게 하는 방법이 있었는데..

import numpy as np 
import pandas as pd
import matplotlib as plt

# 데이터 불러오기
mart = pd.read_csv("mart.csv")
print(mart)

# Q1.지역별로 선호하는 마트
region_crosstab = pd.crosstab(mart["region"], mart["mart"])
print(region_crosstab)

# Q2. 가족구성원의 수별로 선호하는 마트
famnum_crosstab = pd.crosstab(mart["family_num"], mart["mart"])
print(famnum_crosstab)

############### 결과 
mart         costco  emart  homeplus  lotte
region                                     
chungcheong       3      2         1      1
gangwon           1      3         3      2
gyeongsang        0      1         2      7
gyonggi           0      4         2      3
jeolla            2      2         3      0
seoul             2      2         3      1

mart        costco  emart  homeplus  lotte
family_num                                
1                1      4         5      1
2                2      4         3      5
3                2      1         3      2
4                2      3         3      3
5                1      2         0      3

 

- 기울기가 높다고 상관계수가 높은 게 아니라, 그냥 직선이면 상관계수가 높은 것. 

-> 값이 정확히 떨어지는 거니깐

 - 직선과 값들의 거리가 멀기 때문에 (오차가 크기 때문에) 상관계수가 0에 가까울 확률이 큼

- 산점도 봤을 때 난리면 상관계수 안 써도 됨. 

-> 상관 떴다고 다 뜬게 아님. 제 3변수 영향 확인

728x90
반응형