공통 성능, 부하 관리 및 모니터링 기준 (Performance and Monitoring)

2025-10-27

요약

시스템은 빠르지 않으면 ‘정상’이 아니다.
본 문서는 서비스 성능 최적화와 모니터링 기준을 정의한다.
목표: 측정 가능한 성능, 예측 가능한 부하, 자동화된 대응

항목	설명
목표	성능 기준 수립 및 상시 모니터링
테스트	Smoke–Stress–Endurance 3단계
도구	Prometheus + Grafana + Alertmanager
운영	자동 알림 + 스케일 조정

1. 성능 관리 지표

항목	정의	기준
응답시간	평균·p95·p99 기준 측정	p95 ≤ 200ms
처리량 (RPS)	초당 요청 수	목표 RPS 대비 120% 여유
에러율	4xx/5xx 비율	≤ 0.5%
리소스 사용률	CPU/MEM 평균치	< 70%

2. 부하 테스트 절차

테스트 시나리오 설계 (JMeter, k6)
3단계 실행
- Smoke → Stress → Endurance
결과 분석
- Response Time, Error Rate, Throughput
임계값 초과 시 Scale 조정 또는 코드 튜닝

3. 모니터링 시스템 구조

flowchart LR A[애플리케이션] --> B[Exporter] B --> C[Prometheus] C --> D[Alertmanager] D --> E[Grafana 대시보드]

도구	역할
Prometheus	메트릭 수집
Alertmanager	알림 트리거
Grafana	시각화
Loki	로그 수집
Tempo	트레이싱 분석

4. 알림 정책 (Alert Policy)

등급	조건	대응
⚠️ Warning	CPU > 80%	모니터링 지속
🚨 Critical	API Error Rate > 1%	즉시 대응
🔴 Fatal	서비스 다운	PagerDuty / 전화 알림

↑