Алерты и runbook

Stable

Минимальный набор пользовательских алертов и короткий runbook для first response при cold start, autoscale handoff и проблемах подключения.

Обновлено: 21 марта 2026 г.

Ниже — практичный минимум для managed‑эксплуатации SPG99. Эти сигналы позволяют быстро понять, проблема локальна для одной БД или затрагивает саму платформенную цепочку.

Что полезно алертить

1. БД в error

Это главный сигнал, что ресурс уже не в штатном состоянии.

2. Долгий booting или unusually slow cold start

Полезно, когда sleeping‑база стабильно выходит в ready дольше ожидаемого.

3. scale_state=FAILED

Это важный новый сигнал: handoff writer не завершился.

4. Долгий FREEZING или DRAINING

Обычно это значит, что workload не даёт безопасно завершить cutover.

5. Ошибки подключения и TLS

Особенно важны для Gateway и клиентского входа.

6. Рост pinned/session трафика

Полезно при подозрении, что autoscaler блокируется не платформой, а особенностями приложения.

Что делать первым делом

  1. Откройте карточку БД и посмотрите state.
  2. Проверьте scale_state, current_profile, target_profile.
  3. Посмотрите Metrics и Logs.
  4. Если проблема связана с первым подключением после простоя, проверьте, не слишком ли мал connect_timeout.
  5. Если проблема затрагивает несколько БД сразу, смотрите Gateway и Control Plane как общий слой.

Что приложить в поддержку

Хороший набор для быстрой эскалации:

  • tenant и имя базы;
  • время проблемы;
  • текст ошибки драйвера или API;
  • state и scale_state;
  • current_profile / target_profile, если relevant;
  • короткий фрагмент логов;
  • описание того, что вы делали перед сбоем.

Практический вывод

Лучший runbook для пользователя SPG99 — сначала определить, это проблема:

  • одной БД;
  • cold start;
  • autoscale handoff;
  • подключения через Gateway;
  • или всего контура сразу.

После этого путь к решению обычно становится заметно короче.