토픽 146 / 210·클라우드 및 플랫폼 보안
적대적 공격 (Adversarial Attack)
적대적 공격 (Adversarial Attack)
ML 모델에 의도적으로 조작된 입력(적대적 예제)을 주입하여 잘못된 판단을 유도하는 AI 보안 공격
특징: 사람 눈에 감지 불가능한 미세 변조, 결정 경계(Decision Boundary) 악용
공격 유형
- •Evasion(회피): 추론 시 입력 조작으로 오분류, 가장 일반적
- •Poisoning(오염): 학습 시 훈련 데이터에 악성 데이터 삽입
- •Model Extraction(탈취): 반복 질의로 모델 기능 복제
- •Backdoor(백도어): 특정 트리거 시에만 오분류
주요 Evasion 기법: FGSM(단일 스텝/빠름), PGD(반복 FGSM/강력), C&W(최적화/최강), DeepFool(최소 섭동)
화이트박스 vs 블랙박스: 화이트(모델 정보 있음/FGSM·PGD) vs 블랙(모델 모름/질의·전이 공격)
방어: Adversarial Training(PGD-AT/가장 효과적), 입력 전처리, 모델 앙상블, Certified Defense(수학적 보장)
비교: Evasion(추론/입력 오분류) vs Poisoning(학습/모델 오염) vs Extraction(추론/모델 복제)
적용사례: 자율주행 표지판 오인식, 악성코드 탐지 우회, 얼굴 인식 회피
연관: AI 보안, 머신러닝, Explainable AI