토픽 114 / 172·고급 학습 기법
Constitutional AI
Constitutional AI
AI 시스템이 명시적인 원칙(헌법, Constitution)을 따르도록 자기 비평(Self-Critique)과 자기 개선(Self-Revision)을 반복하여 학습하는 기법으로, RLHF의 인간 피드백을 AI 피드백(RLAIF)으로 대체하여 확장성과 일관성을 확보하며 Anthropic이 Claude 개발에 활용
목적: AI 안전성, 가치 정렬, 확장 가능한 감독(Scalable Oversight), 인간 비용 절감
특징: 명시적 원칙(헌법), 자기 비평·개선, AI 피드백(RLAIF), 투명성, 확장성
구성요소
- •헌법(Constitution): 명시적 원칙 목록(예: "유해하지 않음", "편향 없음", "도움이 됨")
- •자기 비평(Self-Critique): AI가 자신의 응답을 헌법 기준으로 평가
- •자기 개선(Self-Revision): 비평 기반으로 응답 수정
- •RLAIF(RL from AI Feedback): AI 피드백으로 강화학습
2단계 프로세스
헌법 예시
- •"불법 활동을 조장하지 않음"
- •"유해하거나 공격적이지 않음"
- •"편향되지 않고 공정함"
- •"도움이 되고 정직함"
- •"프라이버시를 존중함"
동작: 프롬프트 → 초기 응답 → 비평(헌법 위반?) → 개선 응답 → (반복) → 최종 응답
장점: 확장성(인간 비용↓), 일관성(명시적 원칙), 투명성(헌법 공개), 안전성 향상, 빠른 반복
단점: 헌법 설계 어려움, AI 피드백 품질, 복잡한 가치 판단 한계, 자기 개선 한계
적용사례: Claude(Anthropic), 헌법 기반 챗봇, 안전한 AI 어시스턴트
기술요소: Self-Critique, Self-Revision, RLAIF, 명시적 원칙, Scalable Oversight
비교: RLHF(인간 피드백·비싸고 느림) vs Constitutional AI(AI 피드백·빠르고 확장)
연관: RLAIF, AI Alignment, AI 안전성, RLHF, Scalable Oversight, 가치 정렬