While the linear transformations are the same across different positions, they use different parameters from layer to layer.
-> BERT에서 FFNN은 position-wise라서, position마다 각자의 FFNN을 가지는데, 각자 독립적으로 가중치가 다르다.
[출처]
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
'Learning Log' 카테고리의 다른 글
[GEN] Alignment (0) | 2023.08.22 |
---|---|
[BERT] pad_sequence 차원 이해 (2) | 2023.08.21 |
[BERT] emb_dim과 hid_dim의 구분 (0) | 2023.08.21 |
[BERT] BertSelfOutput에 있는 Linear의 용도 (0) | 2023.08.21 |
[BERT] finetuning시 경고 (lm_head) (0) | 2023.08.21 |