토픽 116 / 210·사이버 공격 및 위협
백도어 공격 - AI (Backdoor Attack)
백도어 공격 - AI (Backdoor Attack)
학습 데이터에 특정 트리거 패턴을 삽입하여 트리거 입력 시 공격자가 원하는 출력을 유도하는 AI 공격
특징
- •은닉성: 정상 입력 시 정상 동작하여 탐지 회피
- •트리거 활성화: 특정 패턴(스티커/워터마크/특정 문구) 입력 시에만 오동작
- •Data Poisoning 하위 유형: 학습 데이터 오염 기반 공격
- •사전학습 모델 위험: 오픈소스 모델/전이학습 시 백도어 전파
동작원리
- •① 트리거 패턴 설계(이미지: 작은 패치/텍스트: 특정 구문)
- •② 학습 데이터 일부에 트리거 + 목표 레이블 삽입
- •③ 모델 학습(정상 데이터 + 오염 데이터 혼합)
- •④ 배포 후 트리거 입력으로 활성화(정상 입력은 정상 출력)
방어: Neural Cleanse(트리거 역추적), Fine-Pruning(불필요 뉴런 제거), STRIP(입력 교란 탐지), 모델 무결성 검증
비교
연관: Data Poisoning, AI/ML 보안, 적대적 공격, 공급망 보안