DS가 되기 위한 여정 👩‍💻
728x90
반응형

2025/05 31

[elice pandas] ',' , '-' replace 간단하게 하기, 형변환

*elice 강의안 - object type을 int로 바꾸기 위한 강의 내용 중에서 코드가 진짜 간단해서 적어둠. - 매번 할 때마다 헷갈리는 건데 아래처럼 하면 될 듯. `info()`를 사용해 데이터의 타입을 확인해보면 모든 데이터가 수가 아닌 텍스트(Object) 타입으로 저장되어 있습니다. 이는 즉 데이터에 있는 3,359는 숫자 3359가 아닌 텍스트 "3,359"가 저장되어있는 상태입니다. 이 상태로는 숫자의 연산, 나아가 평균값과 같은 통계량을 측정할 수 없습니다. 따라서 우리는 이 텍스트(Object)들을 모두 **정수형(int)** 으로 바꾸어야 합니다. 정수형으로 바꾸기 위해선 텍스트에서 숫자만을 남기고 모두 제거해야 합니다. 이를 위해 숫자로 바꾸어야 하는 컬럼들에서 `str.re..

Data Science/Pandas 2025.05.12

[elice numpy] split()으로 배열 나누기, 브로드 캐스팅, 마스킹 연산

*elice 문제 & 강의안 - 나누는 기준 행이나 열의 인덱스 값 [] 을 중간에 넣어주기만 하면 됨- n, m = np.split(배열, [인덱스], axis=축)- 이러면 2개의 배열로 나눠짐import numpy as npprint("matrix")matrix = np.array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9,10,11], [12,13,14,15]])print(matrix, "\n")# Q1. matrix를 [3] 행에서 axis 0으로 나누기'''[[0 1 2 3] [4 5 6 7] [8 9 10 11]], [12 13 14 15]'''a, ..

Data Science/Numpy 2025.05.11

[Essence of linear algebra] ch.6 The determinant

https://www.youtube.com/watch?v=Ip3X9LOh2dk&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=6 "The purpose of computation is insight, not numbers."- Richard Hamming “계산의 목적은 숫자가 아니라 통찰이다.”또는“계산의 목적은 통찰이지, 단순한 숫자가 아니다.” - 오늘의 문장임. 계산의 목적이 결국 쉽게 이해하게 돕기 위한 수단인데.. 너무 반전되어 있다.. - 학창시절에 수학을 하긴 하면서도.. 버렸던 이유가 이해와 계산은 별개였기 때문이다. - 어제 시간이 떠서 한 번 들었는데.. 여러 번 들을 수록 이해가 잘 되서 지금 들으면서 정리하려고 한다. [determinant,..

[coding_test] str은 지역변수 내에서만 수정 가능 ( list는 전역 가능)

- 어떤 경우에는 빈 시퀀스를 전역변수로 선언하고 어떤 경우로는 지역변수로 선언하는 것을 계속 헷갈렸다.==> 드디어 이해했음! 문제)pw = {4:'love', 8:'smile', 6:'kiss'}res = " " def yoonHa(nums): for i in nums: i = int(i) res += pw[i] ## 자꾸 이 부분에서 에러가 떴음 return resTraceback (most recent call last): File "main.py", line 17, in print(yoonHa(nums)) File "main.py", line 9, in yoonHa res += pw[i]UnboundLocalError: local variab..

[Essence of linear algebra] ch.5 Three-dimensional linear transformations

https://www.youtube.com/watch?v=rHLEWRxRGiM&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=5 Lisa: Well, where’s my dad?Frink: Well, it should be obvious to even the most dimwitted individual who holds an advanced degree in hyperbolic topology that Homer Simpson has stumbled into… (dramatic pause) the third dimension. Lisa: 음, 우리 아빠는 어디 계세요?Frink: 음, 고차원적인 위상수학(하이퍼볼릭 토폴로지)에 정통한 사람이라면, 아무리 멍청한 사람이..

[elice 머신러닝] dataframe 문제..

- 너무 헷갈려서.. 머신러닝 2 안 하고 전처리 판다스 부분 강의 다시 들어야 겠다 import numpy as npimport pandas as pdA = pd.DataFrame(np.ones((5, 5)) * 2)B = pd.DataFrame(np.ones((7, 7)) * 3)print("DataFrame A \n", A)print("DataFrame B \n", B)# Pandas 연산자를 활용해 행렬의 연산을 해보세요.# NaN 값이 발생한다면 그 자리에는 -1을 채우세요.# A + B (행렬의 덧셈)add = A.add(B,fill_value=-1)print(add,'\n')# A - B (행렬의 뺄셈)sub = A.sub(B, fill_value=-1)print(sub,'\n')# A *..

Data Science/Pandas 2025.05.06

[elice 머신러닝] 머신러닝 프로젝트 진행과정

*elice 강의안- 과적합을 진짜 주의해야 함. - 반드시 나눠야 함. test_size=0.3 -> 0.3을 평가에 사용하고 0.7을 훈련에 사용하겠다는 것- 과적합은 훈련데이터에 치중되서 새로운 데이터에 대해서는 성능이 떨어짐.. - 과적합 검증용으로 사용됨. - 5번 검증을 거치고 5개의 평균을 사용함. [학습용 데이터와 평가용 데이터 분리]train_test_split()import numpy as npfrom sklearn.model_selection import train_test_splitfrom elice_utils import EliceUtilselice_utils = EliceUtils()# 랜덤한 [40,4] 크기의 dataset 생성dataset = np.random.random..

AI/Machine Learning 2025.05.06

[Essence of linear algebra] ch4. Matrix multiplication as composition

https://www.youtube.com/watch?v=XkY2DOUCWMU&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=4 "It is my experience that proofs involving matrices can be shortened by 50% if one throws the matrices out."— Emil Artin "내 경험에 따르면, 행렬을 사용하는 증명은행렬을 없애버리면 50%는 줄일 수 있다."- 에밀 아르틴 - 오늘의 시작 문장은 이것이다. 그니깐.. 문제는 행렬이야.. - shear: 다시 밀어버리는 것 => 이러면 다시 선형변환임. - *다소 헷갈려서 아래에 추가했음. - 단순한 회전과 shear 와는 다름. -> 두 개의 선..

[elice 머신러닝] 통계분석

*elice 강의안 ##### 정규 분포 평균 분산import numpy as npimport matplotlib.pyplot as pltfrom elice_utils import EliceUtilselice_utils = EliceUtils()# 랜덤 값 고정np.random.seed(0)# 정규 분포 파라미터 설정mean = 2std = 1# 정규 분포 샘플링n_samples = np.random.normal(mean, std, 1000)count, bins, ignored = plt.hist(n_samples, 20, density=True)# Plot the distribution curveplt.plot(bins, 1/(std * np.sqrt(2 * np.pi)) * np.exp( - (bi..

[elice 머신러닝] 확률 변수와 조건부 확률

*elice 강의안 =============> 확률문제도 기억이 안 나..문제 요약:박스 안에 숫자 공들이 있음:‘1번’이 적힌 공: 5개‘2번’이 적힌 공: 3개주머니:1번 주머니: 까만 구슬 7개, 흰 구슬 3개2번 주머니: 까만 구슬 4개, 흰 구슬 6개절차:박스에서 무작위로 공 하나를 꺼냄 (1번 또는 2번이 적혀 있음)그 번호에 해당하는 주머니에서 무작위로 구슬을 하나 꺼냄→ 이때, 꺼낸 구슬이 흰색일 확률은?​=> a+b = 113 베이지안 확률 계산 - 중복제거를 잊으면 안 됨 set()import numpy as np# 집합 A, B 설정A = [1, 2, 3, 4]B = [2, 4, 6, 8, 10, 12]# prior 계산 함수P_A = len(A)/len(set(A+B))P_B..

728x90
반응형