VAS Experts ePDG Monitoring System [Документация VAS Experts]

Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слеваПредыдущая версия
Следующая версия
Предыдущая версия
dpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:00] elena.krasnobryzhdpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:07] (текущий) – [Таблица] elena.krasnobryzh
Строка 240: Строка 240:
 ==== 5.1 Prometheus (CNCF Standard) ==== ==== 5.1 Prometheus (CNCF Standard) ====
  
-Объединение на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается federation для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir.+Нативный ''/metrics'' endpoint на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается объединение для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir.
  
 ==== 5.2 SNMP v2c — EPDG-MIB ==== ==== 5.2 SNMP v2c — EPDG-MIB ====
Строка 293: Строка 293:
   * **Diameter Details** — messages по applications, latency, watchdog   * **Diameter Details** — messages по applications, latency, watchdog
  
-Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением.+Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением каждые 15 секунд.
  
 ==== 5.4 Alertmanager Webhooks ==== ==== 5.4 Alertmanager Webhooks ====
Строка 303: Строка 303:
 ==== Категории алармов ==== ==== Категории алармов ====
  
-^ Severity      ^ Алармы                                                                                                                                                                                                                            ^ Описание                                                       ^ Реакция                                                                      +^ Severity      ^ Алармы                                                                                                                                                                                                                            ^ Описание                                                       ^ Реакция                                                                            
-| **Critical**  | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout''                                                                                  | Компонент недоступен, массовый отказ attach, peer unreachable  | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор 1 час             | +| **Critical**  | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout''                                                                                  | Компонент недоступен, массовый отказ attach, peer unreachable  | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час             | 
-| **Warning**   | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate''  | Деградация производительности, аномалии ресурсов               | Email. Повтор 4 часа. Подавляется при наличии Critical на том же компоненте  |+| **Warning**   | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate''  | Деградация производительности, аномалии ресурсов               | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте  |
  
 ==== Полный перечень алармов (20+ правил) ==== ==== Полный перечень алармов (20+ правил) ====