분류 전체보기(175)
-
22.03.19 Optimizer 중 하나인 Gradient Descent
머신러닝 중 대부분인 지도학습 : 기계(컴퓨터)에게 input과 그것의 정답 y를 준다(training dataset) 그리고 그 dataset을 가장 잘 표현하는 직선(또는 비선형모델)을 만드는 W,b를 찾도록 컴퓨터를 학습시킨다. Regression : 어떤 입력을 주면 특정 값을 출력(예측=inference) 해내는 것. Linear regression : data를 가장 잘 표현하는 모델 H(x)로 직선을 사용하는 regression. 어떤 입력을 주면 특정 값을 출력(예측=inference) 해낸다. H(x) = Wx + b. 이 떄 x는 input(이미지, 단어 등) Nonlinear regression : data를 가장 잘 표현하는 모델 H(x)로 비선형모델(구불구불한 선)을 사용하는 re..
2022.03.19 -
22.03.19 Linear regression / Cost function
머신러닝의 종류 Supervised learning (지도학습) : 컴퓨터에게 답이 정해진 데이터들을 입력하여 컴퓨터를 학습시킴. (ex. 이미지 라벨링, 기온 예측) -> 대부분은 지도학습 Unsupervised learning (비지도학습) : 컴퓨터에게 답을 주지 않은 채로 데이터들을 주어 컴퓨터를 학습시킨다. (ex. 구글 뉴스) 지도학습의 종류 - 회귀 문제 Regression : 저번에 본 시험성적들, 필기들을 봤을 때 이번 시험성적은 몇 점일까? 값 입력 -> 특정한 값이 출력 - 이진분류 문제 Binary classification : 이번 성적들을 넣었을 때, 내가 P일까 F일까? 값 입력 -> 둘 중 하나로 분류 - 멀티 라벨 분류 문제 Multi label classification ..
2022.03.19 -
22.03.19 LSTM 과 GRU
LSTM( Long Short Term Memory ) - RNN 모델 - Vanilla RNN의 기울기 소실 문제를 해결하고자 등장. - 장기 의존성과 단기 의존성을 모두 기억할 수 있다는 뜻이다. Long Short - 새로 계산된 hidden state를 출력값으로도 사용한다. - Ct = Cell State ( 기울기 소실 장치를 해결하기 위한. 장기적으로 기억할 정보를 저장한다. 예를 들어 앞 단어와 맨 뒤에 오는 단어가 연관이 있다, 그 다음 문장과는 연관이 없다 등등) - Wf, Wi, Wc,Wo = Gate (3종류의 게이트를 4개의 FC Layer Wf, Wi, Wc, Wo가 구성한다.) 1. 망각게이트 Wf : 기존 cell state에서 어떤 정보를 잊을지 결정 concatenate ..
2022.03.19 -
22.03.15 RNN(Recurrent Neural Network)
순차 데이터 : - 순서가 있는 데이터. 이 단어 다음에 뭐가 올지 예상(ex 날씨 예보, DNA 염기서열, 샘플링된 소리신호) - 데이터 내 각 개체 간의 순서가 중요하다. - 딥러닝에서 많이 쓰이는 순차 데이터로는 시계열데이터가 있다. 1. 시계열 데이터(Time Series Data) - 시간순으로 나열된 데이터 - 일정한 시간 간격을 가지고 얻어낸 데이터 - ex 날씨 데이터 주가 데이터 등 2. 자연어 데이터(Natural language) - 사람들이 쓰는 말, 단어가 등장하는 순서(주어 목적어 동사) 가 중요 딥러닝을 활용해서 이런 순차 데이터들을 어떤 일들이 가능할까? 1. 경향성 파악 - 주로 시계열 데이터에 적용(ex 주가예측, 기온예측) 2. 음악 장르 분석 - 오디오 파일도 시계열 ..
2022.03.19 -
22.03.15 CSE 콜로퀴엄 수업 대규모 자연어 처리 모델 분산학습 최적화 최신 동향(서지원 교수님)
parameter + optimizer status라는 메타데이터까지 저장해야 한다. forward 학습도 하면서 각 레이어의 output들도 메모리에 가지고 있어야 한다. -> 요새는 메모리가 많이 필요하다. 이건 메모리 space에 대한 얘기 필요한 총 계산량 : V100 GPU를 100대를 가지고 계산했을 때 1년이 걸릴 정도로 큰 모델이다. 이렇게 큰 모델일 경우에는 32bit 계산을 하는 게 아닌 16+32bit를 섞어서 계산하는 mixed precision 방식을 사용한다. 그래서 half precision인 16bit로 대부분 연산을 진행하게 된다. (FP16) 그렇게 16bit로 줄이게 되면 1년 -> 1개월로 줄일 수 있다.(여기서 V100을 A100으로 바뀐 그래프로 보여준다. A100..
2022.03.16 -
22.03.09 ResNet 논문리뷰 및 공부
코치님 말씀 - 논문리뷰 할 때 Fig1, Fig2 먼저 보고, Abstract랑 Conclusion(실험) 만 보고 문제점과 기존연구와의 차이점?이 어떤지 먼저 파악해봐라 - ResNet을 보는 이유 : 현재에도 ResNet(2015년꺼)을 많이 사용하기 때문이다. - ResNet: VGG 19가 19층에서 더 늘리지 못하고 있었다. 깊어질수록 학습이 잘 안되고 안좋아졌기 때문이다. 왜냐면 깊어질수록 원본 정보를 까먹게 된다. 또 추가적인 문제는 Back propagation 이기 때문에 layer가 적을 때는 back propagation 하기가 쉬운데(경우의 수가 적은데), layer가 많으면 거슬러올라가기가 힘들다. 그래서 이전 정보를 한번 더 주는(그림에서 2layer씩 뛰어넘는 것) short..
2022.03.11