e3에 영향 미치는 정도 = state3 미분값 정보 + state2 미분값 정보 + state1 미분값 정보 이렇게 연쇄적으로 길어짐 시퀀스가 매우 길어지는 경우 문제가 발생할 수 있음 (input이 100 토큰 정도 되는 경우) 기울기값이 1보다 작은 경우 --> 100번 곱하면 0에 가까워짐 = 기존 w와 차이가 없어지는 셈 = lr에 0이 곱해지는 셈 기울기값이 1보다 큰 경우 ---> 100번 곱하면 w가 매우 커짐, 그리고 왔다갔다 함 = 한 곳으로 수렴하지 않음 출처: - https://velog.io/@seojeongbin/%EA%B8%B0%EC%9A%B8%EA%B8%B0-%EC%86%8C%EC%8B%A4%EB%B0%8F-%ED%8F%AD%EB%B0%9C-%EA%B7%B8%EB%A6%AC%..