Мониторинг ePDG [Документация VAS Experts]

Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слеваПредыдущая версия
Следующая версия
Предыдущая версия
dpi:epdg:monitoring [2026/04/29 11:59] – удалено - внешнее изменение (Дата неизвестна) 127.0.0.1dpi:epdg:monitoring [2026/05/07 09:10] (текущий) elena.krasnobryzh
Строка 1: Строка 1:
 +{{indexmenu_n>6}}
 +====== Мониторинг ePDG ======
 +
 +===== Комплексная система мониторинга шлюза VoWiFi (ePDG) =====
 +
 +===== Обзор решения =====
 +
 +Система мониторинга VAS Experts ePDG Monitoring обеспечивает полный операционный контроль компонента **fast-epdg** — шлюза VoWiFi (Voice over WiFi), работающего согласно 3GPP TS 29.273 и TS 24.302. Шлюз обеспечивает защищённую передачу голосового и пакетного трафика через недоверенные каналы Wi-Fi с IPSec/IKEv2 туннелированием и интеграцию с EPC-ядром через интерфейсы SWu, SWm, SWx, S2b, S6b.
 +
 +Решение предоставляет единую платформу мониторинга для оперативных служб мобильного оператора — от уровня IPSec SA (L3 security) до KPI абонентского опыта VoWiFi.
 +
 +==== Ключевые преимущества ====
 +
 +  * **Мониторинг в реальном времени** — обновление метрик каждые 10-15 секунд, непосредственное отображение состояния IKE SA / Child SA и GTP-туннелей в NOC-дашбордах без отложенной агрегации (здесь и далее NOC — Network Operation Center, центр управления сетью).
 +  * **Проактивное обнаружение аномалий** — 20+ алармов с автоматической эскалацией по важности. Недоступность PGW/AAA, рост задержек IKEv2, рост ошибок EAP-AKA' — детектируются до того, как абоненты заметят проблемы со звонками.
 +  * **Открытые интерфейсы интеграции** — Prometheus, SNMP v2c, Alertmanager webhooks, поддержка Grafana. Интеграция в существующую NMS/OSS инфраструктуру без привязки к вендору.
 +  * **Минимальные внешние зависимости на уровне плагинов** — встроенный ''/metrics'' endpoint в fast-epdg, без Java, без JMX, без внешних агентов.
 +  * **Покрытие всего стека SWu → S2b** — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C (S2b) и GTP-U data plane — в одном месте. 33 метрики суммарно, покрывают control plane и data plane.
 +
 +
 +==== Четырёхуровневая архитектура мониторинга ====
 +
 +^ Уровень                           ^ Компонент                                   ^ Технология                                            ^
 +| **Сбор** (Collection)             | Встроенный ''/metrics'' endpoint fast-epdg  | Текстовый формат Prometheus поверх HTTP               |
 +| **Хранение** (Storage)            | Prometheus TSDB                             | Локальное хранение, 15-дневное хранение по умолчанию  |
 +| **Визуализация** (Visualization)  | Grafana + поддержка JSON                    | Автозагрузка 4 дашбордов                              |
 +| **Сигнализация** (Alerting)      | Alertmanager + SNMP Trap Sender             | PromQL rules → webhook → SNMP v2c trap                |
 +
 +
 +==== Количественный обзор по категориям ====
 +
 +^ Категория ^ Кол-во метрик ^ Интервал опроса ^ Ключевые показатели ^
 +| **Config** | 2 | 10 с | Статус конфигурации, счётчик reload |
 +| **Network** | 1 | 10 с | Статус соединений с узлами (PGW/AAA/HSS) |
 +| **IKEv2 (SWu)** | 3 | 10 с | Сообщения по типам (IKE_SA_INIT, IKE_AUTH, CREATE_CHILD_SA), диаграмма задержки, ошибки |
 +| **GTPv2-C (S2b)** | 4 | 10 с | Сообщения (Create/Modify/Delete Session), задержки, ошибки, ретрансляции |
 +| **GTP-U data plane** | 3 | 10 с | Packets/bytes, ошибки туннелирования |
 +| **Diameter (SWm/SWx/S6b)** | 5 | 10 с | Сообщения по command code (DER/DEA, MAR/MAA, AAR/AAA), задержки, ошибки, watchdog, статус соединения |
 +| **Service KPI** | 4 | 10 с | Процент успешных попыток, гистограмма продолжительности, доступность сервиса, время безотказной работы |
 +| **Session State** | 4 | 10 с | IKE SA, Child SA, GTP-сессии, всего пользователей |
 +| **Application** | 3 | 10 с | Количество потоков, память, лог-сообщения по уровням |
 +| **System** | 4 | 10 с | Утилизация CPU, память, утилизация памяти, открытые FD |
 +| **Итого** | **33 метрики** |  |  |
 +
 +
 +==== Категории алармов ====
 +
 +^ Критичность   ^ Алармы                                                                                                                                                                                                                            ^ Описание                                                          ^ Реакция                                                                            ^
 +| **Critical**  | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout''                                                                                  | Компонент недоступен, массовый отказ соединений, узлы недоступны  | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час             |
 +| **Warning**   | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate''  | Деградация производительности, аномалии ресурсов                  | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте  |
 +
 +