[NN] RNN 기울기 소실의 원인

Learning Log

카제xd 2023. 9. 6. 15:46

시퀀스가 매우 길어지는 경우 문제가 발생할 수 있음 (input이 100 토큰 정도 되는 경우)
- 기울기값이 1보다 작은 경우 --> 100번 곱하면 0에 가까워짐 = 기존 w와 차이가 없어지는 셈 = lr에 0이 곱해지는 셈
- 기울기값이 1보다 큰 경우 ---> 100번 곱하면 w가 매우 커짐, 그리고 왔다갔다 함 = 한 곳으로 수렴하지 않음

출처:

[Transformer] masked_fill 연산과 mask의 &(and) 연산 (0)	2023.08.30
[Python] 2차원 리스트에 대한 접근 (0)	2023.08.27
[Python] list에 sorted 함수 적용시 (0)	2023.08.26
[Python] list의 append 메서드와 메모리 (0)	2023.08.25
[BERT] BertTokenizer argument 중 text input에 대한 실험 (0)	2023.08.23

거꾸로 강을 거슬러 오르는 저 힘찬 자연어들처럼

교육, Ai, 교육혁신, HTHT2021컨퍼런스, HTHT2021, HTHT컨퍼런스, 교육컨퍼런스, HTHT, 에듀테크, AIEd, AI교육, 하이터치하이테크, HighTouchHighTech,

거꾸로 강을 거슬러 오르는 저 힘찬 자연어들처럼