토픽 116 / 210·사이버 공격 및 위협

백도어 공격 - AI (Backdoor Attack)

백도어 공격 - AI (Backdoor Attack)

학습 데이터에 특정 트리거 패턴을 삽입하여 트리거 입력 시 공격자가 원하는 출력을 유도하는 AI 공격

특징

•은닉성: 정상 입력 시 정상 동작하여 탐지 회피
•트리거 활성화: 특정 패턴(스티커/워터마크/특정 문구) 입력 시에만 오동작
•Data Poisoning 하위 유형: 학습 데이터 오염 기반 공격
•사전학습 모델 위험: 오픈소스 모델/전이학습 시 백도어 전파

동작원리

•① 트리거 패턴 설계(이미지: 작은 패치/텍스트: 특정 구문)
•② 학습 데이터 일부에 트리거 + 목표 레이블 삽입
•③ 모델 학습(정상 데이터 + 오염 데이터 혼합)
•④ 배포 후 트리거 입력으로 활성화(정상 입력은 정상 출력)

방어: Neural Cleanse(트리거 역추적), Fine-Pruning(불필요 뉴런 제거), STRIP(입력 교란 탐지), 모델 무결성 검증

비교

연관: Data Poisoning, AI/ML 보안, 적대적 공격, 공급망 보안

목록 ←데이터 포이즈닝 (Data Poisoning)다음: 버퍼 오버플로 공격 (Buffer Overflow)→