토픽 111 / 172·고급 학습 기법
RLHF (Reinforcement Learning from Human Feedback) 상세
RLHF (Reinforcement Learning from Human Feedback) 상세
인간 피드백과 강화학습을 결합하여 LLM을 인간 선호와 가치에 정렬(Alignment)시키는 학습 기법
특징: 3단계 학습, 인간 평가 통합, 보상 모델링, 정책 최적화
3단계 프로세스
- •SFT(지도 파인튜닝): 고품질 프롬프트-응답 쌍으로 파인튜닝, Cross-Entropy Loss
- •RM(보상 모델 학습): 응답 쌍(A vs B) + 인간 선호 → Pairwise Ranking Loss(Bradley-Terry)
- •RL(강화학습 최적화): PPO로 보상 최대화 + KL 패널티(원본 모델 유사성 유지)
보상 모델: 프롬프트+응답→스칼라 보상 점수, 인간 선호 예측
PPO: Clipped Objective(급격 변화 방지), KL Divergence 제약(SFT 대비 이탈 방지)
장점: 유해성·편향 감소, 사용자 선호 반영, 안전성 향상
단점: 인간 라벨링 비용, 보상 해킹(RM 악용), 불안정 학습, 라벨러 간 불일치
적용사례: ChatGPT(OpenAI), Claude(Anthropic), Llama 2 Chat(Meta)
비교: SFT(지시 데이터만) vs RLHF(SFT+인간 선호) vs RLAIF(AI 피드백)
연관: AI Alignment, Constitutional AI, Instruction Tuning, PPO