Justin-book

공통 성능, 부하 관리 및 모니터링 기준 (Performance and Monitoring)

2025-10-27

요약

  • 시스템은 빠르지 않으면 ‘정상’이 아니다.
  • 본 문서는 서비스 성능 최적화와 모니터링 기준을 정의한다.
  • 목표: 측정 가능한 성능, 예측 가능한 부하, 자동화된 대응
항목설명
목표성능 기준 수립 및 상시 모니터링
테스트Smoke–Stress–Endurance 3단계
도구Prometheus + Grafana + Alertmanager
운영자동 알림 + 스케일 조정

1. 성능 관리 지표

항목정의기준
응답시간평균·p95·p99 기준 측정p95 ≤ 200ms
처리량 (RPS)초당 요청 수목표 RPS 대비 120% 여유
에러율4xx/5xx 비율≤ 0.5%
리소스 사용률CPU/MEM 평균치< 70%

2. 부하 테스트 절차

  1. 테스트 시나리오 설계 (JMeter, k6)
  2. 3단계 실행
    • Smoke → Stress → Endurance
  3. 결과 분석
    • Response Time, Error Rate, Throughput
  4. 임계값 초과 시 Scale 조정 또는 코드 튜닝

3. 모니터링 시스템 구조

flowchart LR A[애플리케이션] --> B[Exporter] B --> C[Prometheus] C --> D[Alertmanager] D --> E[Grafana 대시보드]
도구역할
Prometheus메트릭 수집
Alertmanager알림 트리거
Grafana시각화
Loki로그 수집
Tempo트레이싱 분석

4. 알림 정책 (Alert Policy)

등급조건대응
⚠️ WarningCPU > 80%모니터링 지속
🚨 CriticalAPI Error Rate > 1%즉시 대응
🔴 Fatal서비스 다운PagerDuty / 전화 알림