Learning
토픽 26 / 192·애자일과 DevOps

SRE (Site Reliability Engineering)

SRE (Site Reliability Engineering)

Google이 제안한 소프트웨어 엔지니어링 접근법으로, 시스템의 신뢰성을 체계적으로 관리하는 운영 방법론

핵심 개념

  • SLI(Service Level Indicator): 서비스 품질의 정량적 측정 지표 (예: 가용률, 지연시간)
  • SLO(Service Level Objective): SLI의 목표치 (예: 99.9% 가용성)
  • SLA(Service Level Agreement): SLO 기반 고객과의 계약
  • Error Budget: 100% - SLO, 허용 가능한 오류 범위 (예: 0.1% = 월 43.8분)
  • Toil: 수동적/반복적/자동화 가능한 운영 작업, 제거 대상

원칙: 50% 규칙(운영 50% 이하), Error Budget 기반 배포 속도 조절, 포스트모템 문화

비교: SRE(엔지니어링/SLO/Error Budget) vs DevOps(문화/CAMS/CI·CD)

연관: DevOps, DORA Metrics, 모니터링, 인시던트 관리