토픽 48 / 172·Transformer와 언어모델

Positional Encoding

Transformer의 Self-Attention은 토큰 순서를 인식하지 못하므로(Permutation Invariant), 입력 임베딩에 위치 정보를 명시적으로 주입하는 기법

주요 방식: 사인/코사인 PE(원본 Transformer/학습 불필요/임의 길이 일반화/절대 위치), Learned PE(BERT·GPT/학습 가능 임베딩 테이블/고정 최대 길이), RoPE(LLaMA/회전 행렬로 Q·K에 위치 결합/상대 위치/길이 외삽), ALiBi(BLOOM/어텐션 스코어에 선형 바이어스/임베딩 불필요/길이 일반화 우수), Relative PE(T5/토큰 간 상대 거리 인코딩)

비교: Sinusoidal(고정/학습불필요/외삽가능/절대위치) vs Learned(학습/데이터최적화/길이제한) vs RoPE(상대위치/외삽가능/LLM 표준) vs ALiBi(바이어스/경량/외삽우수)

연관: Transformer, Self-Attention, LLM, RoPE, ALiBi

목록 ←SSM / Mamba (State Space Model)다음: Flash Attention→