토픽 129 / 172·고급 학습 기법

Transformer Positional Encoding

Transformer 아키텍처에서 입력 토큰의 순서 정보를 모델에 전달하기 위해 위치 정보를 인코딩하는 기법으로, Self-Attention이 순서를 인식하지 못하는 한계를 보완

목적: 순서 정보 제공, 시퀀스 관계 학습, 어텐션 연산 보완, 언어 구조 이해

특징: 어텐션은 순서 무관(Permutation Invariant), 위치 정보 별도 주입 필요

종류

위치 인코딩 적용: 토큰 임베딩 + 위치 인코딩 → 모델 입력

장점: 순서 정보 전달, 언어 구조 학습, 시퀀스 처리 가능

단점: 고정 길이 제한(일부), 긴 시퀀스 외삽 어려움(일부), 계산 비용

적용사례: GPT(Learned), BERT(Learned), LLaMA(RoPE), T5(Relative)

비교: Sinusoidal(고정/일반화) vs Learned(학습/최대길이) vs RoPE(상대적/외삽)

연관: Transformer, Self-Attention, LLM, BERT, GPT, RoPE, ALiBi