Мониторинг ePDG
Комплексная система мониторинга шлюза VoWiFi (ePDG)
Обзор решения
Система мониторинга VAS Experts ePDG Monitoring обеспечивает полный операционный контроль компонента fast-epdg — шлюза VoWiFi (Voice over WiFi), работающего согласно 3GPP TS 29.273 и TS 24.302. Шлюз обеспечивает защищённую передачу голосового и пакетного трафика через недоверенные каналы Wi-Fi с IPSec/IKEv2 туннелированием и интеграцию с EPC-ядром через интерфейсы SWu, SWm, SWx, S2b, S6b.
Решение предоставляет единую платформу мониторинга для оперативных служб мобильного оператора — от уровня IPSec SA (L3 security) до KPI абонентского опыта VoWiFi.
Ключевые преимущества
- Мониторинг в реальном времени — обновление метрик каждые 10-15 секунд, непосредственное отображение состояния IKE SA / Child SA и GTP-туннелей в NOC-дашбордах без отложенной агрегации (здесь и далее NOC — Network Operation Center, центр управления сетью).
- Проактивное обнаружение аномалий — 20+ алармов с автоматической эскалацией по важности. Недоступность PGW/AAA, рост задержек IKEv2, рост ошибок EAP-AKA' — детектируются до того, как абоненты заметят проблемы со звонками.
- Открытые интерфейсы интеграции — Prometheus, SNMP v2c, Alertmanager webhooks, поддержка Grafana. Интеграция в существующую NMS/OSS инфраструктуру без привязки к вендору.
- Минимальные внешние зависимости на уровне плагинов — встроенный
/metricsendpoint в fast-epdg, без Java, без JMX, без внешних агентов. - Покрытие всего стека SWu → S2b — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C (S2b) и GTP-U data plane — в одном месте. 33 метрики суммарно, покрывают control plane и data plane.
Четырёхуровневая архитектура мониторинга
| Уровень | Компонент | Технология |
|---|---|---|
| Сбор (Collection) | Встроенный /metrics endpoint fast-epdg | Текстовый формат Prometheus поверх HTTP |
| Хранение (Storage) | Prometheus TSDB | Локальное хранение, 15-дневное хранение по умолчанию |
| Визуализация (Visualization) | Grafana + поддержка JSON | Автозагрузка 4 дашбордов |
| Сигнализация (Alerting) | Alertmanager + SNMP Trap Sender | PromQL rules → webhook → SNMP v2c trap |
Количественный обзор по категориям
| Категория | Кол-во метрик | Интервал опроса | Ключевые показатели |
|---|---|---|---|
| Config | 2 | 10 с | Статус конфигурации, счётчик reload |
| Network | 1 | 10 с | Статус соединений с узлами (PGW/AAA/HSS) |
| IKEv2 (SWu) | 3 | 10 с | Сообщения по типам (IKE_SA_INIT, IKE_AUTH, CREATE_CHILD_SA), диаграмма задержки, ошибки |
| GTPv2-C (S2b) | 4 | 10 с | Сообщения (Create/Modify/Delete Session), задержки, ошибки, ретрансляции |
| GTP-U data plane | 3 | 10 с | Packets/bytes, ошибки туннелирования |
| Diameter (SWm/SWx/S6b) | 5 | 10 с | Сообщения по command code (DER/DEA, MAR/MAA, AAR/AAA), задержки, ошибки, watchdog, статус соединения |
| Service KPI | 4 | 10 с | Процент успешных попыток, гистограмма продолжительности, доступность сервиса, время безотказной работы |
| Session State | 4 | 10 с | IKE SA, Child SA, GTP-сессии, всего пользователей |
| Application | 3 | 10 с | Количество потоков, память, лог-сообщения по уровням |
| System | 4 | 10 с | Утилизация CPU, память, утилизация памяти, открытые FD |
| Итого | 33 метрики |
Категории алармов
| Критичность | Алармы | Описание | Реакция |
|---|---|---|---|
| Critical | ePDG_Service_Down, ePDG_High_Attach_Failure_Rate, ePDG_PGW_Unreachable, ePDG_AAA_Unreachable, ePDG_Diameter_Watchdog_Timeout | Компонент недоступен, массовый отказ соединений, узлы недоступны | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час |
| Warning | ePDG_High_IKEv2_Latency, ePDG_High_GTP_Latency, ePDG_High_IKEv2_Error_Rate, ePDG_High_GTP_Error_Rate, ePDG_High_Memory_Usage, ePDG_High_CPU_Usage, ePDG_Low_Disk_Space, ePDG_High_Error_Log_Rate | Деградация производительности, аномалии ресурсов | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте |
Была ли полезна эта информация?