토픽 146 / 210·클라우드 및 플랫폼 보안

적대적 공격 (Adversarial Attack)

ML 모델에 의도적으로 조작된 입력(적대적 예제)을 주입하여 잘못된 판단을 유도하는 AI 보안 공격

특징: 사람 눈에 감지 불가능한 미세 변조, 결정 경계(Decision Boundary) 악용

공격 유형

주요 Evasion 기법: FGSM(단일 스텝/빠름), PGD(반복 FGSM/강력), C&W(최적화/최강), DeepFool(최소 섭동)

화이트박스 vs 블랙박스: 화이트(모델 정보 있음/FGSM·PGD) vs 블랙(모델 모름/질의·전이 공격)

방어: Adversarial Training(PGD-AT/가장 효과적), 입력 전처리, 모델 앙상블, Certified Defense(수학적 보장)

비교: Evasion(추론/입력 오분류) vs Poisoning(학습/모델 오염) vs Extraction(추론/모델 복제)

적용사례: 자율주행 표지판 오인식, 악성코드 탐지 우회, 얼굴 인식 회피

연관: AI 보안, 머신러닝, Explainable AI