Четыре золотых сигнала
Google SRE book определяет 4 ключевые метрики: Latency, Traffic, Errors, Saturation. Начните с них.
Инструментирование Go-кода
var (
httpRequestsTotal = promauto.NewCounterVec(
prometheus.CounterOpts{
Name: "http_requests_total",
Help: "Total number of HTTP requests",
},
[]string{"method", "path", "status"},
)
httpRequestDuration = promauto.NewHistogramVec(
prometheus.HistogramOpts{
Name: "http_request_duration_seconds",
Help: "HTTP request duration",
Buckets: prometheus.DefBuckets,
},
[]string{"method", "path"},
)
)
SLO и алертинг
Определите SLO: 99.9% запросов с latency < 100ms. Настройте burn rate алерты. Не алертите на каждый 500-й — алертите на нарушение SLO.
Grafana дашборды
RED-метод для каждого сервиса: Rate, Errors, Duration. Один дашборд — один сервис. Обзорный дашборд для всей системы.