국비 지원 강의를 들을 때 받았던 책 인데,
프로젝트하면서 자연어 처리 부분을 잠깐 봤다가 다시 집어들었다.
오늘이 첫 코멘토 날짜라
그 전에 8장 컴퓨터 비젼을 위한 딥러닝을 읽으려고 한 것이었는데 1, 2장을 먼저 읽었다.
수학적 구성요소나 역전파 알고리즘, 텐서, 점곱, 옵티마이저, 손실함수, 그래디언트 등은
블로그에 짤막하게 정리된 거로는 도저히 모르겠어서 읽으면서 GPT 한테 물어보면서 확인했다.
사실 그래도, 나는 이공계열이 아니라서
회귀까지는 이해하는데,
3,4차원으로 넘어가서 행렬곱(텐서 연산)이 나오고 하니깐... 머리가 아팠다..
나는 딱 스칼라, 벡터, 행렬까지는 알겠는데 3차원 텐서 들어가니깐..
과정을 보여주지 않으면 모르겠더라.
수학적 연산으로 인해서 멀어질까봐
프랑소와 숄레가 연산 수식을 전부 제외하고
코드로 계산들을 설명하고 있는데
물론 좋지만 한 눈에 보기는 좋지만,
직관적으로 이해가 잘 안됐다..
특히, 행렬곱은.. 왜 사라진다는 거지??? 에서 이해를 못하다가
join이 아니라 group by로 생각하라고 GPT가 알려주고,
연산되지 않은 차원은 그냥 남아있는 거라고
예시로 과정을 보여주니깐 그제야 이해했다.
3차원 이상되면 머리가 진짜 너무 복잡해진다.
그래도 학습률이란 결국
도함수 derivative는 기울기를 구하는 공식으로 생각하면 되고,
역전파 알고리즘은 오차함수를 줄이는 방향으로 각 층의 도함수의 값을 뒤에서 부터 확인하는 방법이라고 생각하면 된다.
손실을 최소화하는 방법을 찾는 것기 위해서 결과값에서부터 역으로 확인하고, 그 가중치 값을 다시 조정하는 것.
결국 회귀나 나이브 베이즈랑 다르지 않기에 저자도 아주 간단한 원리에서부터 시작된 것이라고 이야기한다.
실제값과 기대값의 차이를 최소화하기 위한 방법인 것이다.
*학습 learning: 훈련 데이터 샘플과 그에 상응하는 타깃이 주어졌을 때, 손실 함수를 최소화 하는 모델의 가중치 값을 찾는 것.
사실 완전히 이해하지는 못 했기 때문에
이전에 심리학 연구방법론을 공부하던 때처럼
여러 번 읽으면서 체화해야 할 것 같다.
'AI > Deep Learning' 카테고리의 다른 글
[객체 탐지 성능 지표] 성능, 속도 평가 지표 (0) | 2025.03.11 |
---|---|
[이미지 CNN] YOLO 모델 성능지표, 파라미터 (0) | 2025.03.08 |
[CNN] 이미지 컨브넷 차원구조 변화 summary() 결과 해석 (0) | 2025.03.07 |
[CV] TED, 즉각적 사물 인식을 컴퓨터가 학습하는 과정 (0) | 2025.03.06 |
[ML 용어 정리 ] DNN, 최적화/활성화/손실 함수, 텐서, 텐서플로우, 분류 (0) | 2024.08.02 |