작업/RNN(3)
-
22.03.19 LSTM 과 GRU
LSTM( Long Short Term Memory ) - RNN 모델 - Vanilla RNN의 기울기 소실 문제를 해결하고자 등장. - 장기 의존성과 단기 의존성을 모두 기억할 수 있다는 뜻이다. Long Short - 새로 계산된 hidden state를 출력값으로도 사용한다. - Ct = Cell State ( 기울기 소실 장치를 해결하기 위한. 장기적으로 기억할 정보를 저장한다. 예를 들어 앞 단어와 맨 뒤에 오는 단어가 연관이 있다, 그 다음 문장과는 연관이 없다 등등) - Wf, Wi, Wc,Wo = Gate (3종류의 게이트를 4개의 FC Layer Wf, Wi, Wc, Wo가 구성한다.) 1. 망각게이트 Wf : 기존 cell state에서 어떤 정보를 잊을지 결정 concatenate ..
2022.03.19 -
22.03.15 RNN(Recurrent Neural Network)
순차 데이터 : - 순서가 있는 데이터. 이 단어 다음에 뭐가 올지 예상(ex 날씨 예보, DNA 염기서열, 샘플링된 소리신호) - 데이터 내 각 개체 간의 순서가 중요하다. - 딥러닝에서 많이 쓰이는 순차 데이터로는 시계열데이터가 있다. 1. 시계열 데이터(Time Series Data) - 시간순으로 나열된 데이터 - 일정한 시간 간격을 가지고 얻어낸 데이터 - ex 날씨 데이터 주가 데이터 등 2. 자연어 데이터(Natural language) - 사람들이 쓰는 말, 단어가 등장하는 순서(주어 목적어 동사) 가 중요 딥러닝을 활용해서 이런 순차 데이터들을 어떤 일들이 가능할까? 1. 경향성 파악 - 주로 시계열 데이터에 적용(ex 주가예측, 기온예측) 2. 음악 장르 분석 - 오디오 파일도 시계열 ..
2022.03.19 -
22.03.15 CSE 콜로퀴엄 수업 대규모 자연어 처리 모델 분산학습 최적화 최신 동향(서지원 교수님)
parameter + optimizer status라는 메타데이터까지 저장해야 한다. forward 학습도 하면서 각 레이어의 output들도 메모리에 가지고 있어야 한다. -> 요새는 메모리가 많이 필요하다. 이건 메모리 space에 대한 얘기 필요한 총 계산량 : V100 GPU를 100대를 가지고 계산했을 때 1년이 걸릴 정도로 큰 모델이다. 이렇게 큰 모델일 경우에는 32bit 계산을 하는 게 아닌 16+32bit를 섞어서 계산하는 mixed precision 방식을 사용한다. 그래서 half precision인 16bit로 대부분 연산을 진행하게 된다. (FP16) 그렇게 16bit로 줄이게 되면 1년 -> 1개월로 줄일 수 있다.(여기서 V100을 A100으로 바뀐 그래프로 보여준다. A100..
2022.03.16