토픽 145 / 172·고급 학습 기법
강화학습 (Reinforcement Learning) 심화
강화학습 (Reinforcement Learning) 심화
에이전트가 환경과 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 머신러닝 패러다임
특징: 시행착오 학습, 지연 보상, 탐색-활용 딜레마, MDP 기반
핵심 개념
- •MDP(Markov Decision Process): (S, A, P, R, γ) - 상태, 행동, 전이확률, 보상, 할인율
- •정책(π): 상태→행동 매핑, 벨만 최적 방정식: V*(s) = max_a[R(s,a) + γ·ΣP(s'|s,a)·V*(s')]
알고리즘 분류
- •Model-Based: 환경 모델 학습 후 계획 (Dreamer, World Models)
- •Value-Based: Q-함수 학습 (DQN: Q-Learning+딥러닝, Experience Replay, 이산 행동)
- •Policy-Based: 정책 직접 최적화 (PPO: Clipping으로 안정적, RLHF에 사용)
- •Actor-Critic: 가치+정책 결합 (SAC: 최대엔트로피·로봇제어, A3C: 비동기병렬)
RLHF: 인간 선호도→보상모델→PPO로 LLM 정렬, DPO(보상모델 없이 직접)
탐색 vs 활용: ε-greedy(확률적 무작위), UCB(불확실성 고려), 호기심 기반(새로움 보상)
장점: 순차적 의사결정, 환경 적응, 인간 수준 달성 가능
단점: 샘플 비효율, 학습 불안정, 보상 설계 어려움
적용사례: AlphaGo(바둑), ChatGPT(RLHF), 로봇 제어, 자율주행
비교: Value-Based(가치학습·이산) vs Policy-Based(정책직접·연속) vs Actor-Critic(결합·범용)
연관: 딥러닝, MDP, 게임 AI, RLHF, LLM, 자율주행