토픽 26 / 192·애자일과 DevOps
SRE (Site Reliability Engineering)
SRE (Site Reliability Engineering)
Google이 제안한 소프트웨어 엔지니어링 접근법으로, 시스템의 신뢰성을 체계적으로 관리하는 운영 방법론
핵심 개념
- •SLI(Service Level Indicator): 서비스 품질의 정량적 측정 지표 (예: 가용률, 지연시간)
- •SLO(Service Level Objective): SLI의 목표치 (예: 99.9% 가용성)
- •SLA(Service Level Agreement): SLO 기반 고객과의 계약
- •Error Budget: 100% - SLO, 허용 가능한 오류 범위 (예: 0.1% = 월 43.8분)
- •Toil: 수동적/반복적/자동화 가능한 운영 작업, 제거 대상
원칙: 50% 규칙(운영 50% 이하), Error Budget 기반 배포 속도 조절, 포스트모템 문화
비교: SRE(엔지니어링/SLO/Error Budget) vs DevOps(문화/CAMS/CI·CD)
연관: DevOps, DORA Metrics, 모니터링, 인시던트 관리