Алерты и runbook
StableМинимальный набор пользовательских алертов и короткий runbook для first response при cold start, autoscale handoff и проблемах подключения.
Обновлено: 21 марта 2026 г.
Ниже — практичный минимум для managed‑эксплуатации SPG99. Эти сигналы позволяют быстро понять, проблема локальна для одной БД или затрагивает саму платформенную цепочку.
Что полезно алертить
1. БД в error
Это главный сигнал, что ресурс уже не в штатном состоянии.
2. Долгий booting или unusually slow cold start
Полезно, когда sleeping‑база стабильно выходит в ready дольше ожидаемого.
3. scale_state=FAILED
Это важный новый сигнал: handoff writer не завершился.
4. Долгий FREEZING или DRAINING
Обычно это значит, что workload не даёт безопасно завершить cutover.
5. Ошибки подключения и TLS
Особенно важны для Gateway и клиентского входа.
6. Рост pinned/session трафика
Полезно при подозрении, что autoscaler блокируется не платформой, а особенностями приложения.
Что делать первым делом
- Откройте карточку БД и посмотрите
state. - Проверьте
scale_state,current_profile,target_profile. - Посмотрите Metrics и Logs.
- Если проблема связана с первым подключением после простоя, проверьте, не слишком ли мал
connect_timeout. - Если проблема затрагивает несколько БД сразу, смотрите Gateway и Control Plane как общий слой.
Что приложить в поддержку
Хороший набор для быстрой эскалации:
- tenant и имя базы;
- время проблемы;
- текст ошибки драйвера или API;
stateиscale_state;current_profile/target_profile, если relevant;- короткий фрагмент логов;
- описание того, что вы делали перед сбоем.
Практический вывод
Лучший runbook для пользователя SPG99 — сначала определить, это проблема:
- одной БД;
- cold start;
- autoscale handoff;
- подключения через Gateway;
- или всего контура сразу.
После этого путь к решению обычно становится заметно короче.
