장애 대응 및 온콜 프로세스 (Incident Response & On-Call)
2025-10-27
요약
- 장애는 피할 수 없지만, 대응은 시스템화할 수 있다.
- 본 문서는 장애 대응 절차, 온콜 체계, 포스트모템 작성 기준을 정의한다.
- 목표: 탐지 → 대응 → 복구 → 회고 자동 루프 완성.
| 항목 | 내용 |
|---|
| 탐지 | Logs + Metrics + Health Probe |
| 대응 | 3단계 온콜 체계 |
| 회복 | 롤백 / Redeploy / ScaleOut |
| 회고 | Postmortem + Action Item 관리 |
1. 장애 탐지 (Detection)
| 소스 | 도구 | 알림 방식 |
|---|
| 애플리케이션 로그 | Loki | Slack #alert |
| 메트릭 임계값 | Prometheus | Alertmanager |
| 헬스체크 실패 | ArgoCD / Liveness Probe | PagerDuty |
| 외부 모니터링 | UptimeRobot / StatusCake | 이메일 |
2. 온콜 체계 (On-Call)
| 역할 | 설명 |
|---|
| 1차 | 근무 시간 내 담당자 (SE/BE) |
| 2차 | 팀 리더 / SRE |
| 3차 | PO / 경영진 보고 |
- 주 단위 로테이션 (1주 = 1 담당자)
- 비상 연락망: 전화 + Slack DM
- 근무 외 시간에는 PagerDuty SMS 발송
3. 장애 대응 프로세스
flowchart LR
A[Alert 발생] --> B[1차 확인]
B --> C{재현 가능?}
C -- Yes --> D[원인 파악 및 해결]
C -- No --> E[로그/트레이스 수집]
D --> F[서비스 정상화]
F --> G[Postmortem 작성]
4. 포스트모템(Postmortem)
| 항목 | 설명 |
|---|
| Incident ID | 자동 생성 (YYYYMMDD-XXX) |
| Impact | 사용자/서비스 영향 |
| Root Cause | 근본 원인 |
| Timeline | 발생~복구까지 시점별 정리 |
| Action Items | 재발 방지 계획 |