토픽 114 / 172·고급 학습 기법

Constitutional AI

AI 시스템이 명시적인 원칙(헌법, Constitution)을 따르도록 자기 비평(Self-Critique)과 자기 개선(Self-Revision)을 반복하여 학습하는 기법으로, RLHF의 인간 피드백을 AI 피드백(RLAIF)으로 대체하여 확장성과 일관성을 확보하며 Anthropic이 Claude 개발에 활용

목적: AI 안전성, 가치 정렬, 확장 가능한 감독(Scalable Oversight), 인간 비용 절감

특징: 명시적 원칙(헌법), 자기 비평·개선, AI 피드백(RLAIF), 투명성, 확장성

구성요소

•헌법(Constitution): 명시적 원칙 목록(예: "유해하지 않음", "편향 없음", "도움이 됨")
•자기 비평(Self-Critique): AI가 자신의 응답을 헌법 기준으로 평가
•자기 개선(Self-Revision): 비평 기반으로 응답 수정
•RLAIF(RL from AI Feedback): AI 피드백으로 강화학습

2단계 프로세스

헌법 예시

•"불법 활동을 조장하지 않음"
•"유해하거나 공격적이지 않음"
•"편향되지 않고 공정함"
•"도움이 되고 정직함"
•"프라이버시를 존중함"

동작: 프롬프트 → 초기 응답 → 비평(헌법 위반?) → 개선 응답 → (반복) → 최종 응답

장점: 확장성(인간 비용↓), 일관성(명시적 원칙), 투명성(헌법 공개), 안전성 향상, 빠른 반복

단점: 헌법 설계 어려움, AI 피드백 품질, 복잡한 가치 판단 한계, 자기 개선 한계

적용사례: Claude(Anthropic), 헌법 기반 챗봇, 안전한 AI 어시스턴트

기술요소: Self-Critique, Self-Revision, RLAIF, 명시적 원칙, Scalable Oversight

비교: RLHF(인간 피드백·비싸고 느림) vs Constitutional AI(AI 피드백·빠르고 확장)

연관: RLAIF, AI Alignment, AI 안전성, RLHF, Scalable Oversight, 가치 정렬

목록 ←DPO (Direct Preference Optimization)다음: AI Agent Framework→