Learning Log
[BERT] pad_sequence 차원 이해
카제xd
2023. 8. 21. 16:38
1. 문장 하나를 토크나이징하고 이에 대한 벡터를 불러오면 2차원 벡터가 생성: (sequence length x emb_dim)
2. batch_size가 256이면 위의 쌍이 256개가 생성: (batch_size x sequence length x emb_dim)
3. pad_sequence는 배치 내에서 가장 긴 sequence_length를 기준으로 작업을 함 = 256개 중에서 토큰 갯수가 가장 많은 sequence 기준으로 값이 설정 (e.g. 80)
※ pad_sequence의 파라미터로 batch_first가 존재. default는 False.
batch_first = False: (sequence length x batch_size x emb_dim) == 80*256*300
batch_first = True: (batch_size x sequence length x emb_dim) == 256*80*300