Learning Log

[NN] RNN 기울기 소실의 원인

카제xd 2023. 9. 6. 15:46

 

 

  • e3에 영향 미치는 정도 = state3 미분값 정보 + state2 미분값 정보 + state1 미분값 정보
  • 이렇게 연쇄적으로 길어짐

 

 

  • 시퀀스가 매우 길어지는 경우 문제가 발생할 수 있음 (input이 100 토큰 정도 되는 경우)
    • 기울기값이 1보다 작은 경우 --> 100번 곱하면 0에 가까워짐 = 기존 w와 차이가 없어지는 셈 = lr에 0이 곱해지는 셈
    • 기울기값이 1보다 큰 경우 ---> 100번 곱하면 w가 매우 커짐, 그리고 왔다갔다 함 = 한 곳으로 수렴하지 않음

 

 

 

출처:

- https://velog.io/@seojeongbin/%EA%B8%B0%EC%9A%B8%EA%B8%B0-%EC%86%8C%EC%8B%A4%EB%B0%8F-%ED%8F%AD%EB%B0%9C-%EA%B7%B8%EB%A6%AC%EA%B3%A0-LSTM