토픽 145 / 172·고급 학습 기법

강화학습 (Reinforcement Learning) 심화

에이전트가 환경과 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 머신러닝 패러다임

특징: 시행착오 학습, 지연 보상, 탐색-활용 딜레마, MDP 기반

핵심 개념

알고리즘 분류

RLHF: 인간 선호도→보상모델→PPO로 LLM 정렬, DPO(보상모델 없이 직접)

탐색 vs 활용: ε-greedy(확률적 무작위), UCB(불확실성 고려), 호기심 기반(새로움 보상)

장점: 순차적 의사결정, 환경 적응, 인간 수준 달성 가능

단점: 샘플 비효율, 학습 불안정, 보상 설계 어려움

적용사례: AlphaGo(바둑), ChatGPT(RLHF), 로봇 제어, 자율주행

비교: Value-Based(가치학습·이산) vs Policy-Based(정책직접·연속) vs Actor-Critic(결합·범용)

연관: 딥러닝, MDP, 게임 AI, RLHF, LLM, 자율주행