Learning Log

[BERT] pad_sequence 차원 이해

카제xd 2023. 8. 21. 16:38

 

1. 문장 하나를 토크나이징하고 이에 대한 벡터를 불러오면 2차원 벡터가 생성: (sequence length  x emb_dim)

2. batch_size가 256이면 위의 쌍이 256개가 생성: (batch_size x sequence length  x emb_dim)

3. pad_sequence는 배치 내에서 가장 긴 sequence_length를 기준으로 작업을 함 = 256개 중에서 토큰 갯수가 가장 많은 sequence 기준으로 값이 설정 (e.g. 80)

 

※ pad_sequence의 파라미터로 batch_first가 존재. default는 False.

batch_first = False: (sequence length x batch_size  x emb_dim) == 80*256*300

batch_first = True: (batch_size x sequence length  x emb_dim) == 256*80*300