토픽 112 / 172·고급 학습 기법

PPO (Proximal Policy Optimization)

강화학습에서 정책 업데이트 폭을 제한하여 학습 안정성을 확보하는 Policy Gradient 알고리즘으로, RLHF의 정책 최적화 단계에서 표준으로 사용되며 TRPO의 복잡성을 단순화

핵심 메커니즘: Clipped Objective(정책 비율 r(θ)를 [1-ε, 1+ε] 범위로 클리핑하여 급격한 업데이트 방지, ε=0.2 일반적), KL Divergence 제약(원본 SFT 모델과의 괴리 방지/보상 해킹 억제), 가치 함수(Critic) 동시 학습(Advantage 추정/분산 감소)

RLHF에서의 역할: 보상 모델(RM) 점수를 보상 신호로 사용, 정책 모델(LLM)이 높은 보상 응답 생성하도록 최적화, KL 패널티로 원본 모델 품질 유지

비교: PPO(Clipped Objective/단순 구현/RLHF 표준/안정적) vs TRPO(KL 제약 명시적/2차 최적화/복잡/이론적 보장) vs A2C(동기적/단순/분산 감소/PPO보다 불안정)

연관: RLHF, 강화학습, 정책 경사, KL Divergence, 보상 모델

목록 ←RLHF (Reinforcement Learning from Human Feedback) 상세 다음: DPO (Direct Preference Optimization)→