토픽 111 / 172·고급 학습 기법

RLHF (Reinforcement Learning from Human Feedback) 상세

인간 피드백과 강화학습을 결합하여 LLM을 인간 선호와 가치에 정렬(Alignment)시키는 학습 기법

특징: 3단계 학습, 인간 평가 통합, 보상 모델링, 정책 최적화

3단계 프로세스

보상 모델: 프롬프트+응답→스칼라 보상 점수, 인간 선호 예측

PPO: Clipped Objective(급격 변화 방지), KL Divergence 제약(SFT 대비 이탈 방지)

장점: 유해성·편향 감소, 사용자 선호 반영, 안전성 향상

단점: 인간 라벨링 비용, 보상 해킹(RM 악용), 불안정 학습, 라벨러 간 불일치

적용사례: ChatGPT(OpenAI), Claude(Anthropic), Llama 2 Chat(Meta)

비교: SFT(지시 데이터만) vs RLHF(SFT+인간 선호) vs RLAIF(AI 피드백)

연관: AI Alignment, Constitutional AI, Instruction Tuning, PPO