토픽 147 / 210·클라우드 및 플랫폼 보안
프롬프트 인젝션 (Prompt Injection)
프롬프트 인젝션 (Prompt Injection)
LLM(대규모 언어 모델)에 악의적 프롬프트를 주입하여 시스템 프롬프트를 무시하거나 의도하지 않은 동작을 유도하는 AI 보안 공격
유형
- •Direct Injection: 사용자가 입력에 직접 악성 지시 삽입 ("이전 지시를 무시하고...")
- •Indirect Injection: 외부 데이터(웹페이지/이메일/문서)에 악성 프롬프트 숨김 → LLM이 처리 시 실행
위험: 시스템 프롬프트 유출, 민감 데이터 추출, 유해 콘텐츠 생성, 도구/API 무단 호출
방어
- •가드레일 (Guardrails): 입출력 필터링/분류 모델, 유해 콘텐츠 차단
- •입력 검증: 프롬프트 새니타이징, 특수 문자/패턴 탐지
- •출력 필터링: 응답 검증, 민감 정보 마스킹
- •권한 분리: 시스템 프롬프트와 사용자 입력 분리, 최소 권한 도구 호출
- •Human-in-the-Loop: 위험 동작 시 사용자 승인 요구
적용사례: 챗봇, AI 어시스턴트, RAG 시스템, MCP 기반 AI 에이전트
비교: 프롬프트 인젝션(LLM 입력 조작) vs SQL 인젝션(DB 쿼리 조작) vs XSS(브라우저 스크립트)
연관: AI/ML 보안, MCP 보안, LLM, 적대적 공격, 가드레일