| Предыдущая версия справа и слеваПредыдущая версияСледующая версия | Предыдущая версия |
| dpi:epdg:components_and_interfaces:monitoring [2026/04/23 14:45] – [Таблица] elena.krasnobryzh | dpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:07] (текущий) – [Таблица] elena.krasnobryzh |
|---|
| ===== 4. Перечень метрик ===== | ===== 4. Перечень метрик ===== |
| |
| Все метрики экспортируются через единый ''/metrics'' endpoint в формате Prometheus text exposition. Именование следует конвенции Prometheus: ''epdg_<группа>_<имя>[_unit]'', тип Counter имеет суффикс ''_total'', Histogram — суффикс ''_seconds'' / ''_bytes''. | Все метрики экспортируются через единый ''/metrics'' endpoint в формате Prometheus text exposition. Именование следует правилам Prometheus: ''epdg_<группа>_<имя>[_unit]'', тип Counter имеет суффикс ''_total'', Histogram — суффикс ''_seconds'' / ''_bytes''. |
| |
| ==== 4.1 Config (2) ==== | ==== 4.1 Config (2) ==== |
| ==== 4.4 GTPv2-C S2b (4) ==== | ==== 4.4 GTPv2-C S2b (4) ==== |
| |
| ^ Имя ^ Тип ^ Назначение ^ | ^ Имя ^ Тип ^ Назначение ^ |
| | ''epdg_gtp_messages_total'' | Counter | Сообщения GTPv2-C (Create/Modify/Delete Session, Echo) | | | ''epdg_gtp_messages_total'' | Counter | Сообщения GTPv2-C (Create/Modify/Delete Session, Echo) | |
| | ''epdg_gtp_request_duration_seconds'' | Histogram | Latency request→response | | | ''epdg_gtp_request_duration_seconds'' | Histogram | Latency request→response | |
| | ''epdg_gtp_errors_total'' | Counter | GTP-C ошибки по Cause Code | | | ''epdg_gtp_errors_total'' | Counter | GTP-C ошибки по Cause Code | |
| | ''epdg_gtp_retransmissions_total'' | Counter | Ретрансмиссии GTP-C запросов | | | ''epdg_gtp_retransmissions_total'' | Counter | Перенаправление GTP-C запросов | |
| |
| ==== 4.5 GTP-U data plane (3) ==== | ==== 4.5 GTP-U data plane (3) ==== |
| ==== 5.1 Prometheus (CNCF Standard) ==== | ==== 5.1 Prometheus (CNCF Standard) ==== |
| |
| Нативный ''/metrics'' endpoint на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается federation для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir. | Нативный ''/metrics'' endpoint на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается объединение для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir. |
| |
| ==== 5.2 SNMP v2c — EPDG-MIB ==== | ==== 5.2 SNMP v2c — EPDG-MIB ==== |
| ==== 5.3 Grafana ==== | ==== 5.3 Grafana ==== |
| |
| **4 JSON-провизионированных дашборда** (35+ панелей суммарно): | **4 поддерживающих JSON дашборда** (35+ панелей суммарно): |
| * **ePDG Overview** — availability, attach KPI, sessions, interfaces status | * **ePDG Overview** — availability, attach KPI, sessions, interfaces status |
| * **IKEv2 Details** — messages, performance, errors, IKE SA lifecycle | * **IKEv2 Details** — messages, performance, errors, IKE SA lifecycle |
| * **Diameter Details** — messages по applications, latency, watchdog | * **Diameter Details** — messages по applications, latency, watchdog |
| |
| Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для NOC wall displays с авто-refresh 15 секунд. | Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением каждые 15 секунд. |
| |
| ==== 5.4 Alertmanager Webhooks ==== | ==== 5.4 Alertmanager Webhooks ==== |
| ==== Категории алармов ==== | ==== Категории алармов ==== |
| |
| ^ Severity ^ Алармы ^ Описание ^ Реакция ^ | ^ Severity ^ Алармы ^ Описание ^ Реакция ^ |
| | **Critical** | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout'' | Компонент недоступен, массовый отказ attach, peer unreachable| Немедленная эскалация: Email + SNMP Trap + Webhook. Repeat 1 час | | | **Critical** | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout'' | Компонент недоступен, массовый отказ attach, peer unreachable | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час | |
| | **Warning** | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate'' | Деградация производительности, аномалии ресурсов | Email. Repeat 4 часа. Подавляется при наличии Critical на том же компоненте | | | **Warning** | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate'' | Деградация производительности, аномалии ресурсов | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте | |
| |
| ==== Полный перечень алармов (20+ правил) ==== | ==== Полный перечень алармов (20+ правил) ==== |
| * **Inhibition**: Critical-алармы автоматически подавляют Warning для того же компонента | * **Inhibition**: Critical-алармы автоматически подавляют Warning для того же компонента |
| * **Grouping**: Алармы группируются по ''alertname'' + ''component'' с 30-секундным окном | * **Grouping**: Алармы группируются по ''alertname'' + ''component'' с 30-секундным окном |
| * **Dead time / Hysteresis**: ''for'' parameter от 1 до 10 минут предотвращает ложные срабатывания | * **Dead time / Hysteresis**: параметр ''for'' от 1 до 10 минут предотвращает ложные срабатывания |
| * **Trap pairing**: raise/clear parallel notifications для соответствия RFC 3877 ALARM-MIB | * **Trap pairing**: raise/clear одновременных событий для соответствия RFC 3877 ALARM-MIB |
| |
| |
| | **Diameter Details** | 7 | Количество сообщений по приложениям (SWm/SWx/S6b), продолжительность запросов, состояние сторожевого таймера, распределение кодов результатов, хронология состояний соединений | | | **Diameter Details** | 7 | Количество сообщений по приложениям (SWm/SWx/S6b), продолжительность запросов, состояние сторожевого таймера, распределение кодов результатов, хронология состояний соединений | |
| |
| ==== Дизайн для NOC ==== | ==== Дизайн для Центра управления сетью (NOC) ==== |
| |
| <mermaid> | <mermaid> |
| </mermaid> | </mermaid> |
| |
| * **Автообновление**: 15-секундный refresh rate | * **Автообновление**: 15-секундный период обновления |
| * **Адаптивная цветовая схема**: зелёный → жёлтый → красный по пороговым значениям | * **Адаптивная цветовая схема**: зелёный → жёлтый → красный по пороговым значениям |
| * **Drill-down**: от Overview к детализации per-component | * **Drill-down**: от Overview к детализации до компонента |
| * **Time-range selector**: от 5 минут до 30 дней истории | * **Time-range selector**: от 5 минут до 30 дней истории |
| * **JSON provisioning**: дашборды разворачиваются автоматически | * **JSON provisioning**: дашборды разворачиваются автоматически |
| Каждая группа метрик может быть независимо включена/выключена без перекомпиляции. | Каждая группа метрик может быть независимо включена/выключена без перекомпиляции. |
| |
| ===== 13. План развития системы мониторинга ===== | |
| |
| Следующие направления развития запланированы в ближайших релизах для расширения наблюдаемости и упрощения интеграции с операторскими NOC-процессами. Приоритизация определяется запросами клиентов и incident-ретроспективами. | |
| |
| ==== 13.1 Расширение перечня метрик ==== | |
| |
| <mermaid> | |
| flowchart TB | |
| ROADMAP["Roadmap: Metrics Expansion"] | |
| |
| ROADMAP --> NET["Network L3/L4<br/>расширение"] | |
| ROADMAP --> SESS["Session State<br/>расширение"] | |
| ROADMAP --> KPI["Service KPI<br/>расширение"] | |
| ROADMAP --> APP["Application<br/>расширение"] | |
| ROADMAP --> SYS["System<br/>расширение"] | |
| |
| NET --> N1["packets/bytes/errors<br/>per-interface counters"] | |
| SESS --> S1["ike_sa_lifetime histogram"] | |
| SESS --> S2["gtp_bearers по QCI"] | |
| SESS --> S3["diameter_sessions per-app"] | |
| SESS --> S4["subscribers_by_apn"] | |
| KPI --> K1["detach reasons"] | |
| KPI --> K2["bearer operations"] | |
| KPI --> K3["throughput per-direction"] | |
| KPI --> K4["packets_lost counters"] | |
| APP --> A1["memory allocations breakdown"] | |
| APP --> A2["IO operations / wait time"] | |
| APP --> A3["event loop lag histogram"] | |
| APP --> A4["file descriptor limits"] | |
| SYS --> Y1["CPU load average"] | |
| SYS --> Y2["disk IO operations/time"] | |
| SYS --> Y3["system network counters"] | |
| </mermaid> | |
| |
| ^ Блок ^ Планируемые метрики ^ Задача ^ | |
| | **Network** | ''epdg_network_packets_total'', ''epdg_network_bytes_total'', ''epdg_network_errors_total'' (по ''interface/protocol/direction'') | Детализация L3/L4 трафика до уровня peer-interface | | |
| | **Session Extended** | ''epdg_session_ike_sa_lifetime_seconds'' (Histogram), ''epdg_session_gtp_bearers_total'' (по ''apn''/''qci''), ''epdg_session_diameter_sessions_total'' (per-application), ''epdg_session_subscribers_by_apn'' | Subscriber-level analytics для capacity planning | | |
| | **Service KPI Extended** | ''epdg_service_detach_total'' (по ''reason''/''initiator''), ''epdg_service_bearer_operations_total'', ''epdg_service_throughput_bytes_per_second'', ''epdg_service_packets_lost_total'' | Полноценный set KPI уровня QoE | | |
| | **Application Extended** | ''epdg_app_threads_active'', ''epdg_app_memory_allocations_total'', ''epdg_app_io_operations_total'', ''epdg_app_io_bytes_total'', ''epdg_app_io_wait_seconds_total'', ''epdg_app_event_loop_lag_seconds'', ''epdg_app_file_descriptors_limit'' | Глубокая app-level observability для performance tuning | | |
| | **System Extended** | ''epdg_system_cpu_load_average'' (1m/5m/15m), ''epdg_system_disk_io_operations_total'', ''epdg_system_disk_io_time_seconds_total'', ''epdg_system_network_bytes_total'', ''epdg_system_network_errors_total'' | Комплексная картина ресурсов без внешних node_exporter'ов | | |
| |
| ==== 13.2 Планируемые функциональные расширения ==== | |
| |
| ^ Направление ^ Описание ^ | |
| | **REST API для просмотра сессий** | OpenAPI 3.0-совместимый API с поиском по IMSI/MSISDN/IP, детализацией IKE SA / Child SA / GTP-bearer; Swagger UI для интерактивного использования | | |
| | **Web UI Session Browser (SPA** | Встроенный web-интерфейс для техподдержки: real-time поиск сессий, фильтрация по APN/state, визуализация IPSec SA и bearer lifetime | | |
| | **Zabbix Template pack** | Готовые YAML-шаблоны Zabbix 7.0 с HTTP Agent + Prometheus Pattern preprocessing, auto-discovery items, dependent items, trigger expressions | | |
| | **Alert Config UI** | Web-интерфейс создания/редактирования Prometheus alert rules без ручного YAML-редактирования, с validation и preview | | |
| | **Расширение EPDG-MIB** | Доведение SNMP OID покрытия до 60+ (включая плановые метрики из §13.1), generation MIB-subtree на лету при изменении экспортёра | | |
| | **Distributed tracing hooks** | OpenTelemetry export для корреляции IKEv2 → Diameter → GTP-C latency в одном trace (отладка end-to-end attach задержек) | | |
| | **QoE MOS proxy** | Косвенная оценка MOS / R-factor через packet loss + jitter estimation на GTP-U data plane (без polling probe-решений) | | |
| |
| ==== 13.3 Интеграционный roadmap ==== | |
| |
| <mermaid> | |
| timeline | |
| title Roadmap этапы расширения мониторинга | |
| Расширение метрик : Network + Session + KPI + App + System | |
| REST API + SPA : Session Browser UI + OpenAPI 3.0 | |
| Ops-tooling : Zabbix templates + Alert Config UI | |
| Advanced observability : OpenTelemetry + Distributed tracing | |
| QoE probe : MOS/R-factor proxy на GTP-U | |
| </mermaid> | |
| |
| Конкретные сроки реализации определяются дорожной картой релизов VAS Experts и согласуются с клиентскими проектами. | |
| |
| |
| ===== 14. Заключение ===== | |
| |
| **VAS Experts ePDG Monitoring** — встроенный мониторинг шлюза VoWiFi с полным покрытием всех интерфейсов 3GPP EPC non-3GPP access: | |
| |
| - **Сквозное покрытие SWu → S2b** — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C + GTP-U (S2b), на всех уровнях L2–L9. **33 метрики** **47 SNMP OID** **14 trap notifications** | |
| - **Скорость реагирования** — 10-секундный цикл сбора, 13+ алармов с hysteresis, автоэскалация через Email/SNMP Trap/Webhook. | |
| - **Открытость интеграции** — Prometheus, SNMP v2c Enterprise MIB, Grafana, Alertmanager webhooks. Совместимость с Nokia NetAct, HP OpenView, IBM Tivoli, Zabbix, PRTG. | |
| - **Полнота визуализации** — 4 дашборда Grafana, 35+ панелей, **34 recording rules** для pre-aggregated KPI (attach success rate, p95/p99 latency, throughput). | |
| - **Минимальная стоимость владения** — самодостаточный пакет ''fast-epdg'', без внешних агентов / runtime-зависимостей, развёртывание за 5 минут, нативный ''/metrics'' endpoint. | |
| - **Единый стек с EPC Monitoring** — полная интеграция в общий Prometheus/Grafana/Alertmanager оператора вместе с DPI/SMF/PCEF/FastPCRF. | |
| |
| ==== Следующие шаги ==== | |
| |
| Для получения демонстрации, технической спецификации или коммерческого предложения: | |
| |
| * **Сайт:** [[https://vasexperts.ru|vasexperts.ru]] | |
| * **Техническая поддержка:** [[mailto:support@vasexperts.ru|support@vasexperts.ru]] | |
| * **Отдел продаж:** [[mailto:sales@vasexperts.ru|sales@vasexperts.ru]] | |
| |
| ---- | |
| |
| //VAS Experts — российский разработчик решений глубокой инспекции трафика (DPI), управления политиками и тарификации, шлюзов VoWiFi для операторов мобильной и фиксированной связи. Продукты VAS Experts используются операторами в России и странах СНГ для СОРМ, BRAS, NAT/CG-NAT, QoS, пакетного ядра LTE и VoWiFi.// | |
| |