- e3에 영향 미치는 정도 = state3 미분값 정보 + state2 미분값 정보 + state1 미분값 정보
- 이렇게 연쇄적으로 길어짐
- 시퀀스가 매우 길어지는 경우 문제가 발생할 수 있음 (input이 100 토큰 정도 되는 경우)
- 기울기값이 1보다 작은 경우 --> 100번 곱하면 0에 가까워짐 = 기존 w와 차이가 없어지는 셈 = lr에 0이 곱해지는 셈
- 기울기값이 1보다 큰 경우 ---> 100번 곱하면 w가 매우 커짐, 그리고 왔다갔다 함 = 한 곳으로 수렴하지 않음
출처:
'Learning Log' 카테고리의 다른 글
[Transformer] masked_fill 연산과 mask의 &(and) 연산 (0) | 2023.08.30 |
---|---|
[Python] 2차원 리스트에 대한 접근 (0) | 2023.08.27 |
[Python] list에 sorted 함수 적용시 (0) | 2023.08.26 |
[Python] list의 append 메서드와 메모리 (0) | 2023.08.25 |
[BERT] BertTokenizer argument 중 text input에 대한 실험 (0) | 2023.08.23 |