Learning Log

[BERT] FFNN에서 position별 parameter 공유

카제xd 2023. 8. 21. 16:18

While the linear transformations are the same across different positions, they use different parameters from layer to layer. 

-> BERT에서 FFNN은 position-wise라서, position마다 각자의 FFNN을 가지는데, 각자 독립적으로 가중치가 다르다.

 

 

[출처]

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems30.

'Learning Log' 카테고리의 다른 글

[GEN] Alignment  (0) 2023.08.22
[BERT] pad_sequence 차원 이해  (2) 2023.08.21
[BERT] emb_dim과 hid_dim의 구분  (0) 2023.08.21
[BERT] BertSelfOutput에 있는 Linear의 용도  (0) 2023.08.21
[BERT] finetuning시 경고 (lm_head)  (0) 2023.08.21