Мониторинг ePDG [Документация VAS Experts]

Это старая версия документа!


Мониторинг ePDG

Комплексная система мониторинга шлюза VoWiFi (ePDG)

1. Обзор решения

Система мониторинга VAS Experts ePDG Monitoring обеспечивает полный операционный контроль компонента fast-epdg — шлюза VoWiFi (Voice over WiFi), работающего согласно 3GPP TS 29.273 и TS 24.302. Шлюз обеспечивает защищённую передачу голосового и пакетного трафика через недоверенные каналы Wi-Fi с IPSec/IKEv2 туннелированием и интеграцию с EPC-ядром через интерфейсы SWu, SWm, SWx, S2b, S6b.

Решение предоставляет единую платформу мониторинга для оперативных служб мобильного оператора — от уровня IPSec SA (L3 security) до KPI абонентского опыта VoWiFi.

Ключевые преимущества

  • Мониторинг в реальном времени — обновление метрик каждые 10-15 секунд, непосредственное отображение состояния IKE SA / Child SA и GTP-туннелей в NOC-дашбордах без отложенной агрегации (здесь и далее NOC — Network Operation Center, центр управления сетью).
  • Проактивное обнаружение аномалий — 20+ алармов с автоматической эскалацией по важности. Недоступность PGW/AAA, рост задержек IKEv2, рост ошибок EAP-AKA' — детектируются до того, как абоненты заметят проблемы со звонками.
  • Открытые интерфейсы интеграции — Prometheus, SNMP v2c, Alertmanager webhooks, поддержка Grafana. Интеграция в существующую NMS/OSS инфраструктуру без привязки к вендору.
  • Минимальные внешние зависимости на уровне плагинов — встроенный /metrics endpoint в fast-epdg, без Java, без JMX, без внешних агентов.
  • Покрытие всего стека SWu → S2b — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C (S2b) и GTP-U data plane — в одном месте. 33 метрики суммарно, покрывают control plane и data plane.

Четырёхуровневая архитектура мониторинга

Уровень Компонент Технология
Сбор (Collection) Встроенный /metrics endpoint fast-epdg Текстовый формат Prometheus поверх HTTP
Хранение (Storage) Prometheus TSDB Локальное хранение, 15-дневное хранение по умолчанию
Визуализация (Visualization) Grafana + поддержка JSON Автозагрузка 4 дашбордов
Сигнализация (Alerting) Alertmanager + SNMP Trap Sender PromQL rules → webhook → SNMP v2c trap

Количественный обзор по категориям

Категория Кол-во метрик Интервал опроса Ключевые показатели
Config 2 10 с Статус конфигурации, счётчик reload
Network 1 10 с Статус соединений с узлами (PGW/AAA/HSS)
IKEv2 (SWu) 3 10 с Сообщения по типам (IKE_SA_INIT, IKE_AUTH, CREATE_CHILD_SA), диаграмма задержки, ошибки
GTPv2-C (S2b) 4 10 с Сообщения (Create/Modify/Delete Session), задержки, ошибки, ретрансляции
GTP-U data plane 3 10 с Packets/bytes, ошибки туннелирования
Diameter (SWm/SWx/S6b) 5 10 с Сообщения по command code (DER/DEA, MAR/MAA, AAR/AAA), задержки, ошибки, watchdog, статус соединения
Service KPI 4 10 с Процент успешных попыток, гистограмма продолжительности, доступность сервиса, время безотказной работы
Session State 4 10 с IKE SA, Child SA, GTP-сессии, всего пользователей
Application 3 10 с Количество потоков, память, лог-сообщения по уровням
System 4 10 с Утилизация CPU, память, утилизация памяти, открытые FD
Итого 33 метрики

Категории алармов

Критичность Алармы Описание Реакция
Critical ePDG_Service_Down, ePDG_High_Attach_Failure_Rate, ePDG_PGW_Unreachable, ePDG_AAA_Unreachable, ePDG_Diameter_Watchdog_Timeout Компонент недоступен, массовый отказ соединений, узлы недоступны Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час
Warning ePDG_High_IKEv2_Latency, ePDG_High_GTP_Latency, ePDG_High_IKEv2_Error_Rate, ePDG_High_GTP_Error_Rate, ePDG_High_Memory_Usage, ePDG_High_CPU_Usage, ePDG_Low_Disk_Space, ePDG_High_Error_Log_Rate Деградация производительности, аномалии ресурсов Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте

Была ли полезна эта информация?