토픽 21 / 172·머신러닝 기초

강화학습 (Reinforcement Learning)

에이전트가 환경과 상호작용하며 시행착오로 누적 보상을 최대화하는 정책을 학습하는 방식

특징: 환경 상호작용, 시행착오, 지연된 보상, 순차적 의사결정

MDP: 5-튜플(S, A, P, R, γ), 마르코프 성질(현재 상태만으로 미래 결정)

벨만 방정식: V^π(s) = E[R + γ·V^π(s')], Q*(s,a) = R + γ·max Q*(s',a'), 현재=즉각보상+할인된 미래

Q-Learning: Q(s,a) ← Q(s,a) + α·[R + γ·max Q(s',a') - Q(s,a)], Off-policy, 소규모 이산 공간

DQN: Q-table→신경망 근사, Experience Replay(상관관계 제거), Target Network(안정화)

정책 기반: Policy Gradient(REINFORCE), Actor-Critic(A3C/PPO/SAC)

탐험 vs 활용: ε-greedy, UCB, Thompson Sampling

V vs Q: V(상태 가치/정책 내포) vs Q(상태-행동 가치/행동 선택 가능)

적용사례: AlphaGo, Atari 게임, 로봇제어, 자율주행, 데이터센터 냉각

비교: 지도학습(정답) vs 비지도학습(패턴) vs 강화학습(보상 신호)

연관: MDP, 벨만방정식, DQN, PPO, AlphaGo