Алерты и runbook

Stable

Минимальный набор пользовательских алертов и короткий runbook для first response при cold start, autoscale handoff и проблемах подключения.

Обновлено: 21 марта 2026 г.

Ниже — практичный минимум для managed‑эксплуатации SPG99. Эти сигналы позволяют быстро понять, проблема локальна для одной БД или затрагивает саму платформенную цепочку.

Что полезно алертить

1. БД в `error`

Это главный сигнал, что ресурс уже не в штатном состоянии.

2. Долгий `booting` или unusually slow cold start

Полезно, когда sleeping‑база стабильно выходит в ready дольше ожидаемого.

3. `scale_state=FAILED`

Это важный новый сигнал: handoff writer не завершился.

4. Долгий `FREEZING` или `DRAINING`

Обычно это значит, что workload не даёт безопасно завершить cutover.

5. Ошибки подключения и TLS

Особенно важны для Gateway и клиентского входа.

6. Рост pinned/session трафика

Полезно при подозрении, что autoscaler блокируется не платформой, а особенностями приложения.

Что делать первым делом

Откройте карточку БД и посмотрите state.
Проверьте scale_state, current_profile, target_profile.
Посмотрите Metrics и Logs.
Если проблема связана с первым подключением после простоя, проверьте, не слишком ли мал connect_timeout.
Если проблема затрагивает несколько БД сразу, смотрите Gateway и Control Plane как общий слой.

Что приложить в поддержку

Хороший набор для быстрой эскалации:

tenant и имя базы;
время проблемы;
текст ошибки драйвера или API;
state и scale_state;
current_profile / target_profile, если relevant;
короткий фрагмент логов;
описание того, что вы делали перед сбоем.

Практический вывод

Лучший runbook для пользователя SPG99 — сначала определить, это проблема:

одной БД;
cold start;
autoscale handoff;
подключения через Gateway;
или всего контура сразу.

После этого путь к решению обычно становится заметно короче.

Почему SPG99 Архитектура План развития Документация Цены Блог