Learning
토픽 146 / 210·클라우드 및 플랫폼 보안

적대적 공격 (Adversarial Attack)

적대적 공격 (Adversarial Attack)

ML 모델에 의도적으로 조작된 입력(적대적 예제)을 주입하여 잘못된 판단을 유도하는 AI 보안 공격

특징: 사람 눈에 감지 불가능한 미세 변조, 결정 경계(Decision Boundary) 악용

공격 유형

  • Evasion(회피): 추론 시 입력 조작으로 오분류, 가장 일반적
  • Poisoning(오염): 학습 시 훈련 데이터에 악성 데이터 삽입
  • Model Extraction(탈취): 반복 질의로 모델 기능 복제
  • Backdoor(백도어): 특정 트리거 시에만 오분류

주요 Evasion 기법: FGSM(단일 스텝/빠름), PGD(반복 FGSM/강력), C&W(최적화/최강), DeepFool(최소 섭동)

화이트박스 vs 블랙박스: 화이트(모델 정보 있음/FGSM·PGD) vs 블랙(모델 모름/질의·전이 공격)

방어: Adversarial Training(PGD-AT/가장 효과적), 입력 전처리, 모델 앙상블, Certified Defense(수학적 보장)

비교: Evasion(추론/입력 오분류) vs Poisoning(학습/모델 오염) vs Extraction(추론/모델 복제)

적용사례: 자율주행 표지판 오인식, 악성코드 탐지 우회, 얼굴 인식 회피

연관: AI 보안, 머신러닝, Explainable AI