자신에게 친절할 것 :)
728x90
반응형

2024/05 21

[Pandas] boolean indexing 불린 인덱싱, 다중 조건 인덱싱

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 ...ㅎ 진작에 이걸 설명해 주시지..뭐.. 실습하면서 익히긴 했지만, 계속 헷갈렸던 내용이라서.. 정리한다..ㅎ++ 이전 강의보다 훨씬 순서도 깔끔하고 디테일하게 설명해주심. 근데 이전에 했던 내용을 안 다루는 메소드가 많아서 리뉴얼 전이랑 같이 보면 좋을 듯.  - .iloc, .loc 은 원래 포스팅에 설명을 추가했기에 제외하고 조건문 넣은 불린 인덱싱.. 이게 길어져서 그런 지 생각보다 헷갈린다. 1. 조건문만 쓰면 -->  불린 값을 시리즈로 출력import pandas as pdburger_df = pd.read_csv("data/burger.csv", index_col = "product..

Data Science/Pandas 2024.05.31

[matplotlib] graph 제목 붙이기, 사이즈 조절, 한글 제목 넣기

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 - scatter plot 산포도 plt.scatter(x, y)- ... 산포도는 진짜..30개 랜덤이라서.. 걍 만들었는데, 그대로 하니깐 너무 상관이 안 뜨게 나타나서, 사실 몸무게와 키는 다소 비례하기 때문에 sorted를 해줬음. - 문제는 그래서 사실상의 linear가 나와버렸지만.. 실제로는 아님.  height_array = np.array([157, 175, 190, 162, 150, 164, 178, 188, 189, 161, 159, 186, 175, 163, 158, 165, 164, 176, 173, 160, 174, 184, 186, 152, 176, 158, 179, 160..

[matplotlib] linear graph, bar graph, scatter plot

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 어제부턴가 리뉴얼 알림이 계속해서 떴던 것 같은 데 dataframe 리뉴얼 버전 들으려고 하니깐, 선수 학습 강의 중 하나라서 다시 듣고 있다. 이전에는 없었던 matplotlib도 생겨서 매우 좋달까.ㅎ오랜만에 통계하는 느낌도 들고 ㅎ 통계 강의도 생겼던데 빨리 듣고 싶기도 하고..  어쩌면 어제 다음달... 코드잇 요금이 결제되어서 오늘 더 불타오르는 것일지도 ㅎ하여튼 운이 좋은 듯 하다. 마침 리뉴얼이 된 시점에 비슷한 진도여서 좋다.  matplotlib.pyplot이게.. r에도 있던 것 같기도 하고 정확하진 않지만..? 근데 결국 논문에는 excell로 표 그렸었다. 마감이라고 해야하나...

[Pandas] DataFrame/Series 정보 확인, .describe(), .value_counts()

# 코드잇 데이터 사이언스 강의 듣는 중 - 대용량 데이터의 경우 불러와서 다 보기에는 값이 너무 많을 수도 있음. -  맨 윗 줄부터 선택한 갯수(n) 보기 --> .head(n)-  맨 아랫 줄부터 선택한 갯수(n) 보기 --> .tail(n)#위부터laptops_df.head(3)#아래부터laptops_df.tail(6) -  데이터 행 렬 크기 확인 --> .shape-  칼럼 종류 확인 --> .columns-  칼럼 정보 확인 --> .info()-  칼럼 간 기초통계 확인 --> .describe()#크기 확인laptops_df.shape#(167, 14)#(로우 개수, 칼럼 개수)#칼럼 종류 확인laptops_df.columns#데이터 타입 확인df.dtypes#칼럼 정보 확인laptops..

Data Science/Pandas 2024.05.30

[Momentum_trouble shooting] 체크박스 에러가 생길 때

잘 사용하다가 갑자기 새로고침 때마다 전체가 눌려있는 에러가 떠서 계속 수정해야지 하다가 어제 시도했다.  아무리 봐도 코드에 문제가 없었는데...지난번에 onAllCheckRoutine()을 만들 때 리로드 문제를 전부 디버깅 했던 기억도 있었다. 그런데 우선 계속 에러가 뜨니깐, 코드를 살펴보면서 에러 사항을 찾으려고 checkbox 함수들 디버깅 해보고,저장 하는 것도 다 확인했는데 콘솔에는 다 적절히 떠서 대체 뭐가 문제지?????하면서 한참을 화면을 노려보고 있었다.  결국 지피티에게 물어보고 이것 저것을 수정하고 있었는데 점점 산으로 가고 난리가 나서 깃허브 저장된 이전 버전으로 다시 되돌렸다..하.ㅎㅎ..ㅎ 배포되어 사용되는 버전이 문제인 것 같다고 지피티를 쪼니깐, 캐시 문제 같으니 1) ..

Projects 2024.05.29

[Pandas] DataFrame 값 수정/추가/삭제, header/index 명 지정하기

#코드잇 데이터 사이언스 강의 듣는 중 - 데이터를 바꾸려면 이름 지정하고 = 바꿀 값 넣어주면 됨. - [] 로 여러 값들 변경이 가능.- 한 값으로 여러 값들을 통일 할 경우 []에 갯수 맞춰서 하나씩 넣어도 되지만, 그보다는 리스트 밖으로 빼주면 더 간단함. iphone_df.loc['iPhone 8', '메모리'] = '2.5GB'#행 한 줄 전부 변경iphone_df.loc['iPhone 8'] = ['2016-06-31', '5.5', '4GB', 'iOS 11.0', 'No']# 같은 값으로 변경iphone_df['디스플레이'] = '5.2 in'#iphone_df['디스플레이'] = ['4.7 in', '4.7 in','4.7 in','4.7 in','4.7 in','4.7 in','4.7..

Data Science/Pandas 2024.05.28

[Pandas] DataFrame indexing 문법 정리 (이름, 위치)

#코드잇 데이터 사이언스 강의 듣는 중 - 헷갈리니깐 일단 숙지 하자..이름으로 인덱싱기본 형태 .loc단축 형태하나의 row 이름df.loc['row4'] row 이름 리스트df.loc[['row4', 'row5', 'row3']] row 이름의 리스트 슬라이싱df.loc['row2':'row6']df['row2':'row6']하나의 column 이름 df.loc[:, 'col1']df['col1']column 이름 리스트df.loc[:, ['col3', 'col4', 'col7']]df[['col3', 'col4', 'col7']]column 이름의 리스트 슬라이싱df.loc[:, 'col3':'col9']  --> 컬럼 이름이라 슬라이싱을 할 때 마지막 것까지 나옴.--> 컬럼은 .loc 빼고는 슬..

Data Science/Pandas 2024.05.27

[Pandas] 인덱싱 indexing, 슬라이싱 slicing, 필터링 filtering

#코드잇 데이터 사이언스 강의 듣는 중 이거 또 왜이러냐 ..하.. 갑자기 파일의 저장 경로를 못 찾겠다고 하면 그 위에 것까지 넣어보고, 그냥.. 상위 폴더를 의미하는 '../ '를 추가하면 됨..근데 이것도 될 때가 있고 안 될 때가 있는데 나도.. 모르겠음.. 🤷‍♀️🤦‍♀️컴퓨터는 왜 깔끔한 거 같으면서도 가끔 인간같이 지멋대로임...import pandas as pdiphone_df = pd.read_csv('../data/iphone.csv', index_col = 0)iphone_df  기본적으로 .loc['로', '벡터' ]를 지정하면 해당 값을 가져 올 수 있음. 로 전체를 가져오고 싶다면 벡터 위치에 : 를 넣으면 됨. 벡터도 마찬가지임.간략하게 쓰는 법은 로랑 벡터가 조금 다름. ..

Data Science/Pandas 2024.05.26

[Jupyter Notebook] 폴더 생성 및 파일 이동

강의를 따라서 듣다가 폴더를 구분해 놓지 않고 쓰고 있었다는 것을 확인하고 만들어서 data.csv는 저장했는데도 계속 에러가 떴다.  이건 현재 running 중인 파일이 데이터가 있는 폴더와 같은 폴더에 있지 않아서 생긴 문제였다.그래서 옮기려고 했는데 잘 안 되서 검색해서 방법을 확인했다.  어떻게 해도 ui 상에서는 이동이 안 되어서 주피터 노트북 상에서 그냥 폴더를 생성하고 기존 것은 삭제 했다.(그냥 내가 방법을 못 찾은 것일지도 모르겠다. ;;) 구글 ,,, 검색은 중구난방이라 그냥 gpt에게 물어봤다. 5단계로 나눠서 셀에 입력하라고 추천했고, 경로 때문에 조금 헤매다가 경우 방법을 찾았다.  1. 현재 작업 디렉토리 확인import osprint("Current working direct..

[Pandas] numpy와 pandas 비교, pd.DataFrame(), header 변경

#코드잇 데이터 사이언스 강의 듣는 중 - 판다스는 기본적으로 넘파이를 바탕으로 만들어서 발전시킨 것--> 외부 데이터 읽고 쓰기, 정리된 데이터 새로운 파일에 저장, 데이터 시각화 가능--> 넘파이보다 표 형식을 다루는 것에 능함. 넘파이는 복잡한 수학 연산을 할 때 사용.  - Pandas DataFrame: 2차원 형태의 데이터를 다루기 위한 자료형- Pandas Series: 1차원 형태의 데이터를 다루기 위한 자료형 --> dataframe은 사실상 여러 개의 series로 구성된 것. - 열: column --> 데이터의 특징 - 행: row/index --> 레코드 (각각에 대한 정보)  Numpy ArrayPandas DataFrame- 인덱스 값(숫자)로 칼럼을 표현- 2차원 넘파이 배열..

Data Science/Pandas 2024.05.20
728x90
반응형