토픽 113 / 172·고급 학습 기법

DPO (Direct Preference Optimization)

보상 모델 학습과 RL 최적화 단계를 생략하고, 인간 선호 데이터로부터 직접 정책 모델을 최적화하는 기법으로, RLHF의 복잡성과 불안정성을 제거하면서 동등 이상의 정렬 성능 달성

핵심 원리: Bradley-Terry 선호 모델 가정, 최적 보상 함수를 정책 함수로 치환(Closed-Form), 선호 쌍(chosen/rejected)에 대한 Cross-Entropy 손실로 직접 학습, 참조 모델(SFT) 대비 로그 확률 비율 사용

장점: 보상 모델 불필요(파이프라인 단순화), RL 학습 불안정성 제거, 구현 간단(SFT와 유사), 하이퍼파라미터 적음, 계산 비용 절감

단점: 정적 선호 데이터 의존(온라인 학습 어려움), 복잡한 선호 패턴 표현 한계, 데이터 품질 민감

비교: DPO(직접 최적화/보상모델X/단순/안정) vs RLHF/PPO(보상모델+RL/복잡/불안정/유연) vs RLAIF(AI 피드백/확장적/품질 의존)

연관: RLHF, PPO, AI Alignment, Bradley-Terry, 선호 학습