Learning
토픽 111 / 172·고급 학습 기법

RLHF (Reinforcement Learning from Human Feedback) 상세

RLHF (Reinforcement Learning from Human Feedback) 상세

인간 피드백과 강화학습을 결합하여 LLM을 인간 선호와 가치에 정렬(Alignment)시키는 학습 기법

특징: 3단계 학습, 인간 평가 통합, 보상 모델링, 정책 최적화

3단계 프로세스

  • SFT(지도 파인튜닝): 고품질 프롬프트-응답 쌍으로 파인튜닝, Cross-Entropy Loss
  • RM(보상 모델 학습): 응답 쌍(A vs B) + 인간 선호 → Pairwise Ranking Loss(Bradley-Terry)
  • RL(강화학습 최적화): PPO로 보상 최대화 + KL 패널티(원본 모델 유사성 유지)

보상 모델: 프롬프트+응답→스칼라 보상 점수, 인간 선호 예측

PPO: Clipped Objective(급격 변화 방지), KL Divergence 제약(SFT 대비 이탈 방지)

장점: 유해성·편향 감소, 사용자 선호 반영, 안전성 향상

단점: 인간 라벨링 비용, 보상 해킹(RM 악용), 불안정 학습, 라벨러 간 불일치

적용사례: ChatGPT(OpenAI), Claude(Anthropic), Llama 2 Chat(Meta)

비교: SFT(지시 데이터만) vs RLHF(SFT+인간 선호) vs RLAIF(AI 피드백)

연관: AI Alignment, Constitutional AI, Instruction Tuning, PPO