Метрики: обзор

Stable

Какие слои SPG99 стоит наблюдать и как метрики помогают разбирать cold start, soft basebackup и новый autoscaler.

Обновлено: 21 марта 2026 г.

В SPG99 метрики нужны не только SRE‑команде, но и пользователю базы. Именно по ним проще всего понять, проблема в приложении, в cold start, в autoscale handoff, в storage‑контуре или в самой SQL‑нагрузке.

Какие слои полезно смотреть

Control Plane

Помогает понять, что происходит с lifecycle ресурсов: state transitions, ошибки orchestration, длительность запуска, handoff writer и удаления.

Gateway

Показывает клиентский входной слой: активные подключения, pooling, TLS‑ошибки, freeze/drain и проблемы на пути к backend.

Compute / Agent

Это ключевой пользовательский слой: readiness, soft bootstrap, CPU, память, соединения, runtime‑состояние PostgreSQL.

Pageserver и Safekeeper

Эти метрики помогают понять, не связана ли проблема с durable storage, WAL quorum или bootstrap‑состоянием.

На какие вопросы отвечают метрики

база реально работает или простаивает;
writer просто стартует или уже идёт autoscale handoff;
не режет ли приложение себя слишком короткими таймаутами;
не мешают ли pinned sessions безопасному cutover;
не деградировал ли storage‑контур;
не связана ли проблема с количеством соединений и pooling.

Что особенно важно после обновления платформы

После перехода на soft basebackup и новый autoscaler особенно полезно отслеживать:

длительность cold start;
готовность warm/writer candidate;
freeze/drain длительности;
checkout timeouts в Gateway;
long transactions и pinned session‑нагрузку;
lag или недоступность Pageserver / Safekeeper quorum.

Почему это полезно пользователю

Метрики сокращают время от симптома до причины. Вместо “база тормозит” можно быстро перейти к более точному выводу:

это нормальный cold start;
handoff writer ещё не завершён;
срезало pooling;
storage‑контур догоняет LSN;
или проблема реально в запросах приложения.

Почему SPG99 Архитектура План развития Документация Цены Блог