| Предыдущая версия справа и слеваПредыдущая версияСледующая версия | Предыдущая версия |
| dpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:00] – elena.krasnobryzh | dpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:07] (текущий) – [Таблица] elena.krasnobryzh |
|---|
| ==== 5.1 Prometheus (CNCF Standard) ==== | ==== 5.1 Prometheus (CNCF Standard) ==== |
| |
| Объединение на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается federation для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir. | Нативный ''/metrics'' endpoint на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается объединение для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir. |
| |
| ==== 5.2 SNMP v2c — EPDG-MIB ==== | ==== 5.2 SNMP v2c — EPDG-MIB ==== |
| * **Diameter Details** — messages по applications, latency, watchdog | * **Diameter Details** — messages по applications, latency, watchdog |
| |
| Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением. | Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением каждые 15 секунд. |
| |
| ==== 5.4 Alertmanager Webhooks ==== | ==== 5.4 Alertmanager Webhooks ==== |
| ==== Категории алармов ==== | ==== Категории алармов ==== |
| |
| ^ Severity ^ Алармы ^ Описание ^ Реакция ^ | ^ Severity ^ Алармы ^ Описание ^ Реакция ^ |
| | **Critical** | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout'' | Компонент недоступен, массовый отказ attach, peer unreachable | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор 1 час | | | **Critical** | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout'' | Компонент недоступен, массовый отказ attach, peer unreachable | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час | |
| | **Warning** | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate'' | Деградация производительности, аномалии ресурсов | Email. Повтор 4 часа. Подавляется при наличии Critical на том же компоненте | | | **Warning** | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate'' | Деградация производительности, аномалии ресурсов | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте | |
| |
| ==== Полный перечень алармов (20+ правил) ==== | ==== Полный перечень алармов (20+ правил) ==== |