토픽 129 / 172·고급 학습 기법
Transformer Positional Encoding
Transformer Positional Encoding
Transformer 아키텍처에서 입력 토큰의 순서 정보를 모델에 전달하기 위해 위치 정보를 인코딩하는 기법으로, Self-Attention이 순서를 인식하지 못하는 한계를 보완
목적: 순서 정보 제공, 시퀀스 관계 학습, 어텐션 연산 보완, 언어 구조 이해
특징: 어텐션은 순서 무관(Permutation Invariant), 위치 정보 별도 주입 필요
종류
- •Sinusoidal PE(Original Transformer):
- •Learned PE(BERT, GPT):
- •Relative PE(Transformer-XL, T5):
- •RoPE(Rotary Position Embedding, LLaMA):
- •ALiBi(Attention with Linear Biases):
위치 인코딩 적용: 토큰 임베딩 + 위치 인코딩 → 모델 입력
장점: 순서 정보 전달, 언어 구조 학습, 시퀀스 처리 가능
단점: 고정 길이 제한(일부), 긴 시퀀스 외삽 어려움(일부), 계산 비용
적용사례: GPT(Learned), BERT(Learned), LLaMA(RoPE), T5(Relative)
비교: Sinusoidal(고정/일반화) vs Learned(학습/최대길이) vs RoPE(상대적/외삽)
연관: Transformer, Self-Attention, LLM, BERT, GPT, RoPE, ALiBi