Justin-book

장애 대응 및 온콜 프로세스 (Incident Response & On-Call)

2025-10-27

요약

  • 장애는 피할 수 없지만, 대응은 시스템화할 수 있다.
  • 본 문서는 장애 대응 절차, 온콜 체계, 포스트모템 작성 기준을 정의한다.
  • 목표: 탐지 → 대응 → 복구 → 회고 자동 루프 완성.
항목내용
탐지Logs + Metrics + Health Probe
대응3단계 온콜 체계
회복롤백 / Redeploy / ScaleOut
회고Postmortem + Action Item 관리

1. 장애 탐지 (Detection)

소스도구알림 방식
애플리케이션 로그LokiSlack #alert
메트릭 임계값PrometheusAlertmanager
헬스체크 실패ArgoCD / Liveness ProbePagerDuty
외부 모니터링UptimeRobot / StatusCake이메일

2. 온콜 체계 (On-Call)

역할설명
1차근무 시간 내 담당자 (SE/BE)
2차팀 리더 / SRE
3차PO / 경영진 보고
  • 주 단위 로테이션 (1주 = 1 담당자)
  • 비상 연락망: 전화 + Slack DM
  • 근무 외 시간에는 PagerDuty SMS 발송

3. 장애 대응 프로세스

flowchart LR A[Alert 발생] --> B[1차 확인] B --> C{재현 가능?} C -- Yes --> D[원인 파악 및 해결] C -- No --> E[로그/트레이스 수집] D --> F[서비스 정상화] F --> G[Postmortem 작성]

4. 포스트모템(Postmortem)

항목설명
Incident ID자동 생성 (YYYYMMDD-XXX)
Impact사용자/서비스 영향
Root Cause근본 원인
Timeline발생~복구까지 시점별 정리
Action Items재발 방지 계획