Learning
토픽 102 / 159

AIOps (Artificial Intelligence for IT Operations)

AIOps (Artificial Intelligence for IT Operations)

빅데이터, 머신러닝, 분석 기술을 IT 운영에 적용하여 이벤트 상관관계 분석, 이상 탐지, 근본 원인 분석, 자동 해결을 수행하는 IT 운영 자동화 플랫폼

목적: IT 운영 효율화, 장애 예방, MTTR 단축, 알림 피로 감소, 자동화

특징: 데이터 통합, ML 기반 분석, 이상 탐지, 상관관계, 자동화

핵심 기능

  • 데이터 수집: 로그, 메트릭, 이벤트, 트레이스 통합
  • 이상 탐지: 베이스라인 자동 학습, 이상 패턴 식별
  • 이벤트 상관관계: 노이즈 제거, 관련 알림 그룹핑
  • 근본 원인 분석(RCA): ML 기반 원인 추론, 토폴로지 분석
  • 자동 해결: 런북 자동화, 자동 스케일링, 자가 치유

vs 전통 모니터링: 임계값 기반→ML 기반, 수동 분석→자동 분석, 반응적→예측적

주요 벤더: Splunk(로그분석), Datadog(통합모니터링), Dynatrace(APM), Moogsoft(이벤트상관), BigPanda(알림통합), ServiceNow ITOM(IT운영관리)

장점: 운영 효율, 알림 피로 감소, 빠른 장애 대응, 예측적 운영

단점: 초기 학습 기간, 데이터 품질 의존, 복잡한 구축, 비용

적용사례: 대규모 클라우드 운영, 금융 IT 인프라, 통신사 네트워크, SaaS 서비스

비교: AIOps(AI 기반 자동화) vs ITSM(프로세스 관리) vs 모니터링(데이터 수집)

연관: ITSM, DevOps, 클라우드 운영, 인시던트 관리, 자동화