Метрики: обзор
StableКакие слои SPG99 стоит наблюдать и как метрики помогают разбирать cold start, soft basebackup и новый autoscaler.
Обновлено: 21 марта 2026 г.
В SPG99 метрики нужны не только SRE‑команде, но и пользователю базы. Именно по ним проще всего понять, проблема в приложении, в cold start, в autoscale handoff, в storage‑контуре или в самой SQL‑нагрузке.
Какие слои полезно смотреть
Control Plane
Помогает понять, что происходит с lifecycle ресурсов: state transitions, ошибки orchestration, длительность запуска, handoff writer и удаления.
Gateway
Показывает клиентский входной слой: активные подключения, pooling, TLS‑ошибки, freeze/drain и проблемы на пути к backend.
Compute / Agent
Это ключевой пользовательский слой: readiness, soft bootstrap, CPU, память, соединения, runtime‑состояние PostgreSQL.
Pageserver и Safekeeper
Эти метрики помогают понять, не связана ли проблема с durable storage, WAL quorum или bootstrap‑состоянием.
На какие вопросы отвечают метрики
- база реально работает или простаивает;
- writer просто стартует или уже идёт autoscale handoff;
- не режет ли приложение себя слишком короткими таймаутами;
- не мешают ли pinned sessions безопасному cutover;
- не деградировал ли storage‑контур;
- не связана ли проблема с количеством соединений и pooling.
Что особенно важно после обновления платформы
После перехода на soft basebackup и новый autoscaler особенно полезно отслеживать:
- длительность cold start;
- готовность warm/writer candidate;
- freeze/drain длительности;
- checkout timeouts в Gateway;
- long transactions и pinned session‑нагрузку;
- lag или недоступность Pageserver / Safekeeper quorum.
Почему это полезно пользователю
Метрики сокращают время от симптома до причины. Вместо “база тормозит” можно быстро перейти к более точному выводу:
- это нормальный cold start;
- handoff writer ещё не завершён;
- срезало pooling;
- storage‑контур догоняет LSN;
- или проблема реально в запросах приложения.
