Learning
토픽 113 / 172·고급 학습 기법

DPO (Direct Preference Optimization)

DPO (Direct Preference Optimization)

보상 모델 학습과 RL 최적화 단계를 생략하고, 인간 선호 데이터로부터 직접 정책 모델을 최적화하는 기법으로, RLHF의 복잡성과 불안정성을 제거하면서 동등 이상의 정렬 성능 달성

핵심 원리: Bradley-Terry 선호 모델 가정, 최적 보상 함수를 정책 함수로 치환(Closed-Form), 선호 쌍(chosen/rejected)에 대한 Cross-Entropy 손실로 직접 학습, 참조 모델(SFT) 대비 로그 확률 비율 사용

장점: 보상 모델 불필요(파이프라인 단순화), RL 학습 불안정성 제거, 구현 간단(SFT와 유사), 하이퍼파라미터 적음, 계산 비용 절감

단점: 정적 선호 데이터 의존(온라인 학습 어려움), 복잡한 선호 패턴 표현 한계, 데이터 품질 민감

비교: DPO(직접 최적화/보상모델X/단순/안정) vs RLHF/PPO(보상모델+RL/복잡/불안정/유연) vs RLAIF(AI 피드백/확장적/품질 의존)

연관: RLHF, PPO, AI Alignment, Bradley-Terry, 선호 학습