Learning
토픽 147 / 210·클라우드 및 플랫폼 보안

프롬프트 인젝션 (Prompt Injection)

프롬프트 인젝션 (Prompt Injection)

LLM(대규모 언어 모델)에 악의적 프롬프트를 주입하여 시스템 프롬프트를 무시하거나 의도하지 않은 동작을 유도하는 AI 보안 공격

유형

  • Direct Injection: 사용자가 입력에 직접 악성 지시 삽입 ("이전 지시를 무시하고...")
  • Indirect Injection: 외부 데이터(웹페이지/이메일/문서)에 악성 프롬프트 숨김 → LLM이 처리 시 실행

위험: 시스템 프롬프트 유출, 민감 데이터 추출, 유해 콘텐츠 생성, 도구/API 무단 호출

방어

  • 가드레일 (Guardrails): 입출력 필터링/분류 모델, 유해 콘텐츠 차단
  • 입력 검증: 프롬프트 새니타이징, 특수 문자/패턴 탐지
  • 출력 필터링: 응답 검증, 민감 정보 마스킹
  • 권한 분리: 시스템 프롬프트와 사용자 입력 분리, 최소 권한 도구 호출
  • Human-in-the-Loop: 위험 동작 시 사용자 승인 요구

적용사례: 챗봇, AI 어시스턴트, RAG 시스템, MCP 기반 AI 에이전트

비교: 프롬프트 인젝션(LLM 입력 조작) vs SQL 인젝션(DB 쿼리 조작) vs XSS(브라우저 스크립트)

연관: AI/ML 보안, MCP 보안, LLM, 적대적 공격, 가드레일