Learning
토픽 99 / 172·AI 윤리와 안전

AI Alignment / AI Safety (AI 정렬/안전)

AI Alignment / AI Safety (AI 정렬/안전)

AI 시스템의 행동을 인간의 의도, 가치, 윤리에 부합하도록 설계·훈련하는 기술 분야로, 초지능 AI의 통제 불가능성과 의도치 않은 유해 행동을 예방

특징: Outer Alignment(인간 의도에 맞는 목표 설정), Inner Alignment(학습된 목표가 설정 목표와 일치), Scalable Oversight(확장 가능한 감독), 보상 해킹 방지

핵심 기법

  • RLHF: 인간 피드백으로 보상 모델 학습, 모델 행동 정렬
  • Constitutional AI: 원칙 기반 자기 비평·수정, Anthropic 제안
  • Debate: 두 AI가 논쟁하여 인간이 올바른 답 판단
  • IDA(Iterated Distillation and Amplification): 인간+AI 협업으로 점진적 정렬
  • Red Teaming: 의도적 공격으로 취약점 발견·보완

주요 위험: 목표 오정렬(Misalignment), 보상 해킹(Reward Hacking), 기만적 정렬(Deceptive Alignment), 권력 추구(Power Seeking)

비교: AI Ethics(윤리 원칙/철학적/가이드라인) vs AI Alignment(기술적 정렬/학습 기반/모델 행동) vs AI Safety(안전 공학/시스템적/위험 관리)

연관: RLHF, Constitutional AI, AI 윤리, AI 가드레일, XAI