22.03.30 딥러닝 학습과정6 - 기울기 소실(Gradient Vanishing) / 폭주(Exploding)

22.03.30 딥러닝 학습과정6 - 기울기 소실(Gradient Vanishing) / 폭주(Exploding)

2022. 3. 30. 21:39ㆍ카테고리 없음

기울기 소실 Gradient Vanishing : 레이어가 많은 깊은 인공신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 미분값 = 기울기(Gradient)가 점점 작아지는 현상

- 입력층에 가까운 층들에게 weight update가 제대로 이루어지지 않으면 최적의 모델(global loss minimum인 weight 찾기)에 실패할 수 있다.

기울기 폭주 Gradient Exploding : 미분값 = 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산해버리는 것. RNN에서 쉽게 발생한다.

1. ReLU와 ReLU의 변형

시그모이드 함수를 사용하면 입력에 따라 출력값이 0 또는 1에 수렴하면서 기울기가 0에 가까워진다. 따라서 역전파 과정에서 입력층 방향으로 갈 수록 제대로 역전파가 되지 않는다. (기울기 소실이 발생함)

기울기 소실 완화 방법

- 은닉층에서 tanh나 sigmoid를 activation function으로 사용하지 말아라.

- Leaky ReLu를 사용하면 기울기가 0에 수렴하지 않아 죽은 ReLU 문제를 해결한다

- 은닉층에서는 ReLU나 Leaky ReLU와 같은 activation function을 사용해라.

2. Gradient Clipping

Gradient Clipping : 기울기 값을 자르는 것. 기울기 폭주를 막기 위해 임계값을 넘지 않도록 값을 자른다. 임계치만큼 크기를 감소시킨다.

3. Weight Initialization

Weight Initialization : 가중치 초기화

- 초기에 가중치를 뭐로 하느냐 (w0)에 따라 모델의 훈련결과가 달라지기도 한다. 그러므로 가중치 초기화를 적절히 해준다.

1) Xavier Initialization 세이비어 초기화 = 글로럿 초기화

- 여러 층의 기울기 분산 사이에 균형을 맞춰서 특정 층이 너무 주목을 받거나 다른 층이 뒤쳐지는 것을 막는다.

- sigmoid나 tanh처럼 S자형인 함수와 사용하면 효과적이다. (ReLU랑은 X)

- 이전 층의 뉴런 개수 nin, 다음 층의 뉴런개수 nout이 있을 때 다음과 같은 분포를 사용하여 가중치를 초기화 한다.

- 균등분포

- 정규분포로 초기화할 떄는 평균 0, 표준편차는 다음과 같이 하여 초기화한다.

2) He Initialization

- ReLU와 사용할 때 효과적이다. 대부분 ReLU를 많이 사용하므로 He 초기화가 보편적이다.

- 이전 층의 뉴런 개수 nin만 가지고 초기화한다.

- 균등분포

- 정규분포

4. Batch Normalization

- ReLU + He initialization으로 어느 정도 기울기 소실/폭주를 완화할 수 있지만, 언제든 발생할 수 있는 문제이다.

Batch Normalization : 인공 신경망의 각 층에 들어가는 입력을 평균과 분산으로 정규화하여 학습을 효율적으로 만들어준다. 즉, 한 번에 들어오는 batch 단위로 정규화 하는 것. 평균을 0으로 만들고 정규화를 한다. 그리고 정규화 된 데이터에 대해 scail(매개변수 사용)과 shift(매개변수 B 베타 사용)를 수행한다.