토픽 103 / 172·AI 윤리와 안전

AI 가드레일

AI 시스템의 안전하고 책임감 있는 동작을 보장하기 위해 출력·행동을 제약하고 모니터링하는 보호 메커니즘으로, 유해 콘텐츠·편향·환각·오용을 방지

특징: 입출력 검증, 실시간 필터링, 규칙 기반 제약, 다층 방어

기능: 유해콘텐츠필터링(독성·폭력 차단), 사실검증(환각 탐지), 개인정보보호(PII 마스킹), 편향완화(공정성 검사), 출력형식제한(JSON·길이 등)

구현방법: 프롬프트가드(입력검증·인젝션방지), 출력필터(응답검증·유해성차단), RLHF(안전정렬), Constitutional AI(원칙기반 자기검증)

도구: Guardrails AI(오픈소스·구조화출력), NeMo Guardrails(NVIDIA·대화흐름제어), LangChain Safety(체인통합)

적용사례: 챗봇안전성(유해콘텐츠차단), 의료AI(오진방지), 금융AI(규정준수)

비교: 입력가드(프롬프트인젝션방지) vs 출력가드(유해콘텐츠차단) vs 행동가드(도구사용제한)

연관: AI윤리, 책임있는AI, RLHF, Constitutional AI, 안전성