자신에게 친절할 것 :)
728x90
반응형

Data Science/Pandas 26

[Pandas] boolean indexing 불린 인덱싱, 다중 조건 인덱싱

#코드잇 데이터 사이언스 강의 듣는 중#데이터 사이언스 Toolkit  renewal 버전 다시 듣는 중 ...ㅎ 진작에 이걸 설명해 주시지..뭐.. 실습하면서 익히긴 했지만, 계속 헷갈렸던 내용이라서.. 정리한다..ㅎ++ 이전 강의보다 훨씬 순서도 깔끔하고 디테일하게 설명해주심. 근데 이전에 했던 내용을 안 다루는 메소드가 많아서 리뉴얼 전이랑 같이 보면 좋을 듯.  - .iloc, .loc 은 원래 포스팅에 설명을 추가했기에 제외하고 조건문 넣은 불린 인덱싱.. 이게 길어져서 그런 지 생각보다 헷갈린다. 1. 조건문만 쓰면 -->  불린 값을 시리즈로 출력import pandas as pdburger_df = pd.read_csv("data/burger.csv", index_col = "product..

Data Science/Pandas 2024.05.31

[Pandas] DataFrame/Series 정보 확인, .describe(), .value_counts()

# 코드잇 데이터 사이언스 강의 듣는 중 - 대용량 데이터의 경우 불러와서 다 보기에는 값이 너무 많을 수도 있음. -  맨 윗 줄부터 선택한 갯수(n) 보기 --> .head(n)-  맨 아랫 줄부터 선택한 갯수(n) 보기 --> .tail(n)#위부터laptops_df.head(3)#아래부터laptops_df.tail(6) -  데이터 행 렬 크기 확인 --> .shape-  칼럼 종류 확인 --> .columns-  칼럼 정보 확인 --> .info()-  칼럼 간 기초통계 확인 --> .describe()#크기 확인laptops_df.shape#(167, 14)#(로우 개수, 칼럼 개수)#칼럼 종류 확인laptops_df.columns#데이터 타입 확인df.dtypes#칼럼 정보 확인laptops..

Data Science/Pandas 2024.05.30

[Pandas] DataFrame 값 수정/추가/삭제, header/index 명 지정하기

#코드잇 데이터 사이언스 강의 듣는 중 - 데이터를 바꾸려면 이름 지정하고 = 바꿀 값 넣어주면 됨. - [] 로 여러 값들 변경이 가능.- 한 값으로 여러 값들을 통일 할 경우 []에 갯수 맞춰서 하나씩 넣어도 되지만, 그보다는 리스트 밖으로 빼주면 더 간단함. iphone_df.loc['iPhone 8', '메모리'] = '2.5GB'#행 한 줄 전부 변경iphone_df.loc['iPhone 8'] = ['2016-06-31', '5.5', '4GB', 'iOS 11.0', 'No']# 같은 값으로 변경iphone_df['디스플레이'] = '5.2 in'#iphone_df['디스플레이'] = ['4.7 in', '4.7 in','4.7 in','4.7 in','4.7 in','4.7 in','4.7..

Data Science/Pandas 2024.05.28

[Pandas] DataFrame indexing 문법 정리 (이름, 위치)

#코드잇 데이터 사이언스 강의 듣는 중 - 헷갈리니깐 일단 숙지 하자..이름으로 인덱싱기본 형태 .loc단축 형태하나의 row 이름df.loc['row4'] row 이름 리스트df.loc[['row4', 'row5', 'row3']] row 이름의 리스트 슬라이싱df.loc['row2':'row6']df['row2':'row6']하나의 column 이름 df.loc[:, 'col1']df['col1']column 이름 리스트df.loc[:, ['col3', 'col4', 'col7']]df[['col3', 'col4', 'col7']]column 이름의 리스트 슬라이싱df.loc[:, 'col3':'col9']  --> 컬럼 이름이라 슬라이싱을 할 때 마지막 것까지 나옴.--> 컬럼은 .loc 빼고는 슬..

Data Science/Pandas 2024.05.27

[Pandas] 인덱싱 indexing, 슬라이싱 slicing, 필터링 filtering

#코드잇 데이터 사이언스 강의 듣는 중 이거 또 왜이러냐 ..하.. 갑자기 파일의 저장 경로를 못 찾겠다고 하면 그 위에 것까지 넣어보고, 그냥.. 상위 폴더를 의미하는 '../ '를 추가하면 됨..근데 이것도 될 때가 있고 안 될 때가 있는데 나도.. 모르겠음.. 🤷‍♀️🤦‍♀️컴퓨터는 왜 깔끔한 거 같으면서도 가끔 인간같이 지멋대로임...import pandas as pdiphone_df = pd.read_csv('../data/iphone.csv', index_col = 0)iphone_df  기본적으로 .loc['로', '벡터' ]를 지정하면 해당 값을 가져 올 수 있음. 로 전체를 가져오고 싶다면 벡터 위치에 : 를 넣으면 됨. 벡터도 마찬가지임.간략하게 쓰는 법은 로랑 벡터가 조금 다름. ..

Data Science/Pandas 2024.05.26

[Pandas] numpy와 pandas 비교, pd.DataFrame(), header 변경

#코드잇 데이터 사이언스 강의 듣는 중 - 판다스는 기본적으로 넘파이를 바탕으로 만들어서 발전시킨 것--> 외부 데이터 읽고 쓰기, 정리된 데이터 새로운 파일에 저장, 데이터 시각화 가능--> 넘파이보다 표 형식을 다루는 것에 능함. 넘파이는 복잡한 수학 연산을 할 때 사용.  - Pandas DataFrame: 2차원 형태의 데이터를 다루기 위한 자료형- Pandas Series: 1차원 형태의 데이터를 다루기 위한 자료형 --> dataframe은 사실상 여러 개의 series로 구성된 것. - 열: column --> 데이터의 특징 - 행: row/index --> 레코드 (각각에 대한 정보)  Numpy ArrayPandas DataFrame- 인덱스 값(숫자)로 칼럼을 표현- 2차원 넘파이 배열..

Data Science/Pandas 2024.05.20
728x90
반응형