공통 성능, 부하 관리 및 모니터링 기준 (Performance and Monitoring)
2025-10-27
요약
- 시스템은 빠르지 않으면 ‘정상’이 아니다.
- 본 문서는 서비스 성능 최적화와 모니터링 기준을 정의한다.
- 목표: 측정 가능한 성능, 예측 가능한 부하, 자동화된 대응
| 항목 | 설명 |
|---|
| 목표 | 성능 기준 수립 및 상시 모니터링 |
| 테스트 | Smoke–Stress–Endurance 3단계 |
| 도구 | Prometheus + Grafana + Alertmanager |
| 운영 | 자동 알림 + 스케일 조정 |
1. 성능 관리 지표
| 항목 | 정의 | 기준 |
|---|
| 응답시간 | 평균·p95·p99 기준 측정 | p95 ≤ 200ms |
| 처리량 (RPS) | 초당 요청 수 | 목표 RPS 대비 120% 여유 |
| 에러율 | 4xx/5xx 비율 | ≤ 0.5% |
| 리소스 사용률 | CPU/MEM 평균치 | < 70% |
2. 부하 테스트 절차
- 테스트 시나리오 설계 (JMeter, k6)
- 3단계 실행
- Smoke → Stress → Endurance
- 결과 분석
- Response Time, Error Rate, Throughput
- 임계값 초과 시 Scale 조정 또는 코드 튜닝
3. 모니터링 시스템 구조
flowchart LR
A[애플리케이션] --> B[Exporter]
B --> C[Prometheus]
C --> D[Alertmanager]
D --> E[Grafana 대시보드]
| 도구 | 역할 |
|---|
| Prometheus | 메트릭 수집 |
| Alertmanager | 알림 트리거 |
| Grafana | 시각화 |
| Loki | 로그 수집 |
| Tempo | 트레이싱 분석 |
4. 알림 정책 (Alert Policy)
| 등급 | 조건 | 대응 |
|---|
| ⚠️ Warning | CPU > 80% | 모니터링 지속 |
| 🚨 Critical | API Error Rate > 1% | 즉시 대응 |
| 🔴 Fatal | 서비스 다운 | PagerDuty / 전화 알림 |