Метрики: обзор

Stable

Какие слои SPG99 стоит наблюдать и как метрики помогают разбирать cold start, soft basebackup и новый autoscaler.

Обновлено: 21 марта 2026 г.

В SPG99 метрики нужны не только SRE‑команде, но и пользователю базы. Именно по ним проще всего понять, проблема в приложении, в cold start, в autoscale handoff, в storage‑контуре или в самой SQL‑нагрузке.

Какие слои полезно смотреть

Control Plane

Помогает понять, что происходит с lifecycle ресурсов: state transitions, ошибки orchestration, длительность запуска, handoff writer и удаления.

Gateway

Показывает клиентский входной слой: активные подключения, pooling, TLS‑ошибки, freeze/drain и проблемы на пути к backend.

Compute / Agent

Это ключевой пользовательский слой: readiness, soft bootstrap, CPU, память, соединения, runtime‑состояние PostgreSQL.

Pageserver и Safekeeper

Эти метрики помогают понять, не связана ли проблема с durable storage, WAL quorum или bootstrap‑состоянием.

На какие вопросы отвечают метрики

  • база реально работает или простаивает;
  • writer просто стартует или уже идёт autoscale handoff;
  • не режет ли приложение себя слишком короткими таймаутами;
  • не мешают ли pinned sessions безопасному cutover;
  • не деградировал ли storage‑контур;
  • не связана ли проблема с количеством соединений и pooling.

Что особенно важно после обновления платформы

После перехода на soft basebackup и новый autoscaler особенно полезно отслеживать:

  • длительность cold start;
  • готовность warm/writer candidate;
  • freeze/drain длительности;
  • checkout timeouts в Gateway;
  • long transactions и pinned session‑нагрузку;
  • lag или недоступность Pageserver / Safekeeper quorum.

Почему это полезно пользователю

Метрики сокращают время от симптома до причины. Вместо “база тормозит” можно быстро перейти к более точному выводу:

  • это нормальный cold start;
  • handoff writer ещё не завершён;
  • срезало pooling;
  • storage‑контур догоняет LSN;
  • или проблема реально в запросах приложения.