토픽 99 / 172·AI 윤리와 안전

AI Alignment / AI Safety (AI 정렬/안전)

AI 시스템의 행동을 인간의 의도, 가치, 윤리에 부합하도록 설계·훈련하는 기술 분야로, 초지능 AI의 통제 불가능성과 의도치 않은 유해 행동을 예방

특징: Outer Alignment(인간 의도에 맞는 목표 설정), Inner Alignment(학습된 목표가 설정 목표와 일치), Scalable Oversight(확장 가능한 감독), 보상 해킹 방지

핵심 기법

주요 위험: 목표 오정렬(Misalignment), 보상 해킹(Reward Hacking), 기만적 정렬(Deceptive Alignment), 권력 추구(Power Seeking)

비교: AI Ethics(윤리 원칙/철학적/가이드라인) vs AI Alignment(기술적 정렬/학습 기반/모델 행동) vs AI Safety(안전 공학/시스템적/위험 관리)

연관: RLHF, Constitutional AI, AI 윤리, AI 가드레일, XAI