자신에게 친절할 것 :)
728x90
반응형

분류 전체보기 116

[Statistics] mean, median, Q1, Q3, outlier, mode, .describe()

# 코드잇 데이터 사이언스 강의 듣는 중 - data에 따라서 대표치를 어떤 것으로 볼 지가 달라짐.- outlier가 크면, median은 mean보다 outlier의 영향을 덜 받기 때문에 사용- but, median은 전체 값의 분포가 달라져도 같을 수 있지만, mean은 값에 영향을 받기 때문에 median이 다 같으면 mean 더 좋은 대표치가 됨.  --> numerical(수치형) data는 mean, median, mode를 구할 수 있음 - but categorical(범주형) data는 mean, median을 구할 수 없기에 mode가 대표치가 됨.  + 수치형 데이터는 1) 이산형데이터 (값이 정확히 떨어짐; 오늘 마신 아메의 갯수) 와2) 연속형 데이터 (값이 정확하지 않음; 추정..

Statistics 2024.06.02

[Seaborn] dist plot, violin plot, 등고선, lm plot, cat plot, strip plot

# 코드잇 데이터 사이언스 강의 듣는 중  - seaborn을 쓰면 matplotlib 보다 더 적은 코드로 근사한 그래프를 그릴 수 있음. - statisctical data visualizaton 통계 기반 데이터 시각화 툴임. - 간편하게 근사한 그래프를 원하면 seaborn을 쓰고 원하는대로 커스텀해서 그래프를 만들고 싶으면 matplotlib을 쓰면 됨.    - seaborn 라이브러리에서 KDE를 하여 그래프를 매끄럽게 조정할 수 있음.- 이게 뭐지 했었는데..?- 심리통계에서도 매일 쓰는 것이 확률밀도 함수였지만, 그 자체보다는 유의확률에 따라 기각 여부에만 집중했었기 때문에 그냥 조정된 KDE그래프만 봐서 모른 것이었음. 그것도 그냥 데이터가 무한대라고 가정하고 그래프를 추출하는 것이다라..

[Seaborn] Macbook Air의 jupyter notebook에서 seaborn import 에러

#코드잇 데이터 사이언스 강의 듣는 중  그 전에 다운도 안 하신 분들은 먼저 깔으시면 됨. #다운로드!conda install --yes seaborn#불러오기import seaborn as snsPandas와의 호환 문제 일 수도 있지만,우선 Macbook Air의 경우 1.16.0은 다운을 받을 수가 없었고, 오늘(24.06.01) 자로 업데이트가 가능한 최신 seaborn은 0.13.2라서 그걸로 다운 받았다.  코드잇 강의에는 0.9.0 버전을 받도록 시키시는데.. ㅎimport error가 계속 뜬다..ㅎ 1) 일단 Jupyter notebook을 끄고,2) terminal을 열고3) pip uninstall seaborn 으로 우선 삭제를 한 다음에pip uninstall seaborn4) ..

[Statistics] PDF 확률 밀도 함수, KDE kernel Density Estimation

# 코드잇 데이터 사이언스 강의 듣는 중  - 확률밀도함수: 값들이 어떻게 분포되어 있는지 보여주는 것. - 분포는 히스토그램과 비슷함. 히스토그램 막대를 무한으로 늘리면 나타나는 것과 비슷함. - but, 히스토그램은 각 구간마다 값이 몇 개 있는지 셌다면, PDF는 각 구간이 전체에서 차지하는 비중(확률)을 보는 것.   - 데이터 셋의 분포를 나타냄. - 특정 구간의 확률은 그래프 아래 그 구간의 면적과 동일함. - 그래프 아래의 모든 면적의 합 = 1 - 연속형 데이터에서 특정 값이 일어날 확률은 0%- 즉, 키가 174.5 일 확률은 0임. coz, 174.50000001 일 수도 있고, 몇 명을 모아도 저 값의 딱 떨어질 확률은 0에 가까움- 주사위 숫자나 동전 면의 확률과 달리,키, 몸무게,..

Statistics 2024.06.01

[통계와 시각화] 선/막대/원 그래프, 히스토그램, box plot, 산포도

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전과 이전 데이터 시각화 강의가 섞인 정리 - numpy처럼 matplotlib을 메소드로 쓸 수도 있지만, Pandas 플랏이 어차피 plt를 끌어다가 쓰는 것이라서 더 간단하게 사용가능. import pandas as pdimport matplotlib.pyplot as pltsales_df = pd.DataFrame({ 'quarter' : ['1Q', '2Q', '3Q', '4Q'], 'revenue' : [1360, 2650, 2070, 4150], 'cost' : [1240, 1970, 1750, 2760]})sales_df#plt plot을 따로 이용plt.plot(sales_df['qua..

Statistics 2024.06.01

[Pandas] boolean indexing 불린 인덱싱, 다중 조건 인덱싱

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 ...ㅎ 진작에 이걸 설명해 주시지..뭐.. 실습하면서 익히긴 했지만, 계속 헷갈렸던 내용이라서.. 정리한다..ㅎ++ 이전 강의보다 훨씬 순서도 깔끔하고 디테일하게 설명해주심. 근데 이전에 했던 내용을 안 다루는 메소드가 많아서 리뉴얼 전이랑 같이 보면 좋을 듯.  - .iloc, .loc 은 원래 포스팅에 설명을 추가했기에 제외하고 조건문 넣은 불린 인덱싱.. 이게 길어져서 그런 지 생각보다 헷갈린다. 1. 조건문만 쓰면 -->  불린 값을 시리즈로 출력import pandas as pdburger_df = pd.read_csv("data/burger.csv", index_col = "product..

Data Science/Pandas 2024.05.31

[matplotlib] graph 제목 붙이기, 사이즈 조절, 한글 제목 넣기

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 - scatter plot 산포도 plt.scatter(x, y)- ... 산포도는 진짜..30개 랜덤이라서.. 걍 만들었는데, 그대로 하니깐 너무 상관이 안 뜨게 나타나서, 사실 몸무게와 키는 다소 비례하기 때문에 sorted를 해줬음. - 문제는 그래서 사실상의 linear가 나와버렸지만.. 실제로는 아님.  height_array = np.array([157, 175, 190, 162, 150, 164, 178, 188, 189, 161, 159, 186, 175, 163, 158, 165, 164, 176, 173, 160, 174, 184, 186, 152, 176, 158, 179, 160..

[matplotlib] linear graph, bar graph, scatter plot

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 어제부턴가 리뉴얼 알림이 계속해서 떴던 것 같은 데 dataframe 리뉴얼 버전 들으려고 하니깐, 선수 학습 강의 중 하나라서 다시 듣고 있다. 이전에는 없었던 matplotlib도 생겨서 매우 좋달까.ㅎ오랜만에 통계하는 느낌도 들고 ㅎ 통계 강의도 생겼던데 빨리 듣고 싶기도 하고..  어쩌면 어제 다음달... 코드잇 요금이 결제되어서 오늘 더 불타오르는 것일지도 ㅎ하여튼 운이 좋은 듯 하다. 마침 리뉴얼이 된 시점에 비슷한 진도여서 좋다.  matplotlib.pyplot이게.. r에도 있던 것 같기도 하고 정확하진 않지만..? 근데 결국 논문에는 excell로 표 그렸었다. 마감이라고 해야하나...

[Pandas] DataFrame/Series 정보 확인, .describe(), .value_counts()

# 코드잇 데이터 사이언스 강의 듣는 중 - 대용량 데이터의 경우 불러와서 다 보기에는 값이 너무 많을 수도 있음. -  맨 윗 줄부터 선택한 갯수(n) 보기 --> .head(n)-  맨 아랫 줄부터 선택한 갯수(n) 보기 --> .tail(n)#위부터laptops_df.head(3)#아래부터laptops_df.tail(6) -  데이터 행 렬 크기 확인 --> .shape-  칼럼 종류 확인 --> .columns-  칼럼 정보 확인 --> .info()-  칼럼 간 기초통계 확인 --> .describe()#크기 확인laptops_df.shape#(167, 14)#(로우 개수, 칼럼 개수)#칼럼 종류 확인laptops_df.columns#데이터 타입 확인df.dtypes#칼럼 정보 확인laptops..

Data Science/Pandas 2024.05.30

[Momentum_trouble shooting] 체크박스 에러가 생길 때

잘 사용하다가 갑자기 새로고침 때마다 전체가 눌려있는 에러가 떠서 계속 수정해야지 하다가 어제 시도했다.  아무리 봐도 코드에 문제가 없었는데...지난번에 onAllCheckRoutine()을 만들 때 리로드 문제를 전부 디버깅 했던 기억도 있었다. 그런데 우선 계속 에러가 뜨니깐, 코드를 살펴보면서 에러 사항을 찾으려고 checkbox 함수들 디버깅 해보고,저장 하는 것도 다 확인했는데 콘솔에는 다 적절히 떠서 대체 뭐가 문제지?????하면서 한참을 화면을 노려보고 있었다.  결국 지피티에게 물어보고 이것 저것을 수정하고 있었는데 점점 산으로 가고 난리가 나서 깃허브 저장된 이전 버전으로 다시 되돌렸다..하.ㅎㅎ..ㅎ 배포되어 사용되는 버전이 문제인 것 같다고 지피티를 쪼니깐, 캐시 문제 같으니 1) ..

Projects 2024.05.29
728x90
반응형