{{indexmenu_n>6}} ====== Мониторинг ePDG ====== ===== Комплексная система мониторинга шлюза VoWiFi (ePDG) ===== ===== Обзор решения ===== Система мониторинга VAS Experts ePDG Monitoring обеспечивает полный операционный контроль компонента **fast-epdg** — шлюза VoWiFi (Voice over WiFi), работающего согласно 3GPP TS 29.273 и TS 24.302. Шлюз обеспечивает защищённую передачу голосового и пакетного трафика через недоверенные каналы Wi-Fi с IPSec/IKEv2 туннелированием и интеграцию с EPC-ядром через интерфейсы SWu, SWm, SWx, S2b, S6b. Решение предоставляет единую платформу мониторинга для оперативных служб мобильного оператора — от уровня IPSec SA (L3 security) до KPI абонентского опыта VoWiFi. ==== Ключевые преимущества ==== * **Мониторинг в реальном времени** — обновление метрик каждые 10-15 секунд, непосредственное отображение состояния IKE SA / Child SA и GTP-туннелей в NOC-дашбордах без отложенной агрегации (здесь и далее NOC — Network Operation Center, центр управления сетью). * **Проактивное обнаружение аномалий** — 20+ алармов с автоматической эскалацией по важности. Недоступность PGW/AAA, рост задержек IKEv2, рост ошибок EAP-AKA' — детектируются до того, как абоненты заметят проблемы со звонками. * **Открытые интерфейсы интеграции** — Prometheus, SNMP v2c, Alertmanager webhooks, поддержка Grafana. Интеграция в существующую NMS/OSS инфраструктуру без привязки к вендору. * **Минимальные внешние зависимости на уровне плагинов** — встроенный ''/metrics'' endpoint в fast-epdg, без Java, без JMX, без внешних агентов. * **Покрытие всего стека SWu → S2b** — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C (S2b) и GTP-U data plane — в одном месте. 33 метрики суммарно, покрывают control plane и data plane. ==== Четырёхуровневая архитектура мониторинга ==== ^ Уровень ^ Компонент ^ Технология ^ | **Сбор** (Collection) | Встроенный ''/metrics'' endpoint fast-epdg | Текстовый формат Prometheus поверх HTTP | | **Хранение** (Storage) | Prometheus TSDB | Локальное хранение, 15-дневное хранение по умолчанию | | **Визуализация** (Visualization) | Grafana + поддержка JSON | Автозагрузка 4 дашбордов | | **Сигнализация** (Alerting) | Alertmanager + SNMP Trap Sender | PromQL rules → webhook → SNMP v2c trap | ==== Количественный обзор по категориям ==== ^ Категория ^ Кол-во метрик ^ Интервал опроса ^ Ключевые показатели ^ | **Config** | 2 | 10 с | Статус конфигурации, счётчик reload | | **Network** | 1 | 10 с | Статус соединений с узлами (PGW/AAA/HSS) | | **IKEv2 (SWu)** | 3 | 10 с | Сообщения по типам (IKE_SA_INIT, IKE_AUTH, CREATE_CHILD_SA), диаграмма задержки, ошибки | | **GTPv2-C (S2b)** | 4 | 10 с | Сообщения (Create/Modify/Delete Session), задержки, ошибки, ретрансляции | | **GTP-U data plane** | 3 | 10 с | Packets/bytes, ошибки туннелирования | | **Diameter (SWm/SWx/S6b)** | 5 | 10 с | Сообщения по command code (DER/DEA, MAR/MAA, AAR/AAA), задержки, ошибки, watchdog, статус соединения | | **Service KPI** | 4 | 10 с | Процент успешных попыток, гистограмма продолжительности, доступность сервиса, время безотказной работы | | **Session State** | 4 | 10 с | IKE SA, Child SA, GTP-сессии, всего пользователей | | **Application** | 3 | 10 с | Количество потоков, память, лог-сообщения по уровням | | **System** | 4 | 10 с | Утилизация CPU, память, утилизация памяти, открытые FD | | **Итого** | **33 метрики** | | | ==== Категории алармов ==== ^ Критичность ^ Алармы ^ Описание ^ Реакция ^ | **Critical** | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout'' | Компонент недоступен, массовый отказ соединений, узлы недоступны | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час | | **Warning** | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate'' | Деградация производительности, аномалии ресурсов | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте |