VAS Experts ePDG Monitoring System [Документация VAS Experts]

Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слеваПредыдущая версия
Следующая версия
Предыдущая версия
dpi:epdg:components_and_interfaces:monitoring [2026/04/23 14:58] – [Особенности] elena.krasnobryzhdpi:epdg:components_and_interfaces:monitoring [2026/04/23 15:07] (текущий) – [Таблица] elena.krasnobryzh
Строка 240: Строка 240:
 ==== 5.1 Prometheus (CNCF Standard) ==== ==== 5.1 Prometheus (CNCF Standard) ====
  
-Объединение на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается federation для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir.+Нативный ''/metrics'' endpoint на порту **9817** встроен в fast-epdg. Формат — стандартный Prometheus text exposition v0.0.4 (OpenMetrics compatible). Поддерживается объединение для агрегации с центральным Prometheus оператора; remote_write для долгосрочного хранения в Thanos, Cortex, Grafana Mimir.
  
 ==== 5.2 SNMP v2c — EPDG-MIB ==== ==== 5.2 SNMP v2c — EPDG-MIB ====
Строка 293: Строка 293:
   * **Diameter Details** — messages по applications, latency, watchdog   * **Diameter Details** — messages по applications, latency, watchdog
  
-Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением.+Автоматическая установка через Grafana provisioning API. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением каждые 15 секунд.
  
 ==== 5.4 Alertmanager Webhooks ==== ==== 5.4 Alertmanager Webhooks ====
Строка 303: Строка 303:
 ==== Категории алармов ==== ==== Категории алармов ====
  
-^ Severity      ^ Алармы                                                                                                                                                                                                                            ^ Описание                                                       ^ Реакция                                                                      +^ Severity      ^ Алармы                                                                                                                                                                                                                            ^ Описание                                                       ^ Реакция                                                                            
-| **Critical**  | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout''                                                                                  | Компонент недоступен, массовый отказ attach, peer unreachable  | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор 1 час             | +| **Critical**  | ''ePDG_Service_Down'', ''ePDG_High_Attach_Failure_Rate'', ''ePDG_PGW_Unreachable'', ''ePDG_AAA_Unreachable'', ''ePDG_Diameter_Watchdog_Timeout''                                                                                  | Компонент недоступен, массовый отказ attach, peer unreachable  | Немедленная эскалация: Email + SNMP Trap + Webhook. Повтор раз в 1 час             | 
-| **Warning**   | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate''  | Деградация производительности, аномалии ресурсов               | Email. Повтор 4 часа. Подавляется при наличии Critical на том же компоненте  |+| **Warning**   | ''ePDG_High_IKEv2_Latency'', ''ePDG_High_GTP_Latency'', ''ePDG_High_IKEv2_Error_Rate'', ''ePDG_High_GTP_Error_Rate'', ''ePDG_High_Memory_Usage'', ''ePDG_High_CPU_Usage'', ''ePDG_Low_Disk_Space'', ''ePDG_High_Error_Log_Rate''  | Деградация производительности, аномалии ресурсов               | Email. Повтор раз в 4 часа. Подавляется при наличии Critical на том же компоненте  |
  
 ==== Полный перечень алармов (20+ правил) ==== ==== Полный перечень алармов (20+ правил) ====
Строка 388: Строка 388:
 | **Diameter Details** | 7 | Количество сообщений по приложениям (SWm/SWx/S6b), продолжительность запросов, состояние сторожевого таймера, распределение кодов результатов, хронология состояний соединений | | **Diameter Details** | 7 | Количество сообщений по приложениям (SWm/SWx/S6b), продолжительность запросов, состояние сторожевого таймера, распределение кодов результатов, хронология состояний соединений |
  
-==== Дизайн для NOC ====+==== Дизайн для Центра управления сетью (NOC====
  
 <mermaid> <mermaid>
Строка 404: Строка 404:
 </mermaid> </mermaid>
  
-  * **Автообновление**: 15-секундный refresh rate+  * **Автообновление**: 15-секундный период обновления
   * **Адаптивная цветовая схема**: зелёный → жёлтый → красный по пороговым значениям   * **Адаптивная цветовая схема**: зелёный → жёлтый → красный по пороговым значениям
-  * **Drill-down**: от Overview к детализации per-component+  * **Drill-down**: от Overview к детализации до компонента
   * **Time-range selector**: от 5 минут до 30 дней истории   * **Time-range selector**: от 5 минут до 30 дней истории
   * **JSON provisioning**: дашборды разворачиваются автоматически   * **JSON provisioning**: дашборды разворачиваются автоматически
Строка 586: Строка 586:
 Каждая группа метрик может быть независимо включена/выключена без перекомпиляции. Каждая группа метрик может быть независимо включена/выключена без перекомпиляции.
  
-===== 13. План развития системы мониторинга ===== 
- 
-Следующие направления развития запланированы в ближайших релизах для расширения наблюдаемости и упрощения интеграции с операторскими NOC-процессами. Приоритизация определяется запросами клиентов и incident-ретроспективами. 
- 
-==== 13.1 Расширение перечня метрик ==== 
- 
-<mermaid> 
-flowchart TB 
-    ROADMAP["Roadmap: Metrics Expansion"] 
- 
-    ROADMAP --> NET["Network L3/L4<br/>расширение"] 
-    ROADMAP --> SESS["Session State<br/>расширение"] 
-    ROADMAP --> KPI["Service KPI<br/>расширение"] 
-    ROADMAP --> APP["Application<br/>расширение"] 
-    ROADMAP --> SYS["System<br/>расширение"] 
- 
-    NET --> N1["packets/bytes/errors<br/>per-interface counters"] 
-    SESS --> S1["ike_sa_lifetime histogram"] 
-    SESS --> S2["gtp_bearers по QCI"] 
-    SESS --> S3["diameter_sessions per-app"] 
-    SESS --> S4["subscribers_by_apn"] 
-    KPI --> K1["detach reasons"] 
-    KPI --> K2["bearer operations"] 
-    KPI --> K3["throughput per-direction"] 
-    KPI --> K4["packets_lost counters"] 
-    APP --> A1["memory allocations breakdown"] 
-    APP --> A2["IO operations / wait time"] 
-    APP --> A3["event loop lag histogram"] 
-    APP --> A4["file descriptor limits"] 
-    SYS --> Y1["CPU load average"] 
-    SYS --> Y2["disk IO operations/time"] 
-    SYS --> Y3["system network counters"] 
-</mermaid> 
- 
-^ Блок                      ^ Планируемые метрики                                                                                                                                                                                                                              ^ Задача                                                     ^ 
-| **Network**               | ''epdg_network_packets_total'', ''epdg_network_bytes_total'', ''epdg_network_errors_total'' (по ''interface/protocol/direction''                                                                                                               | Детализация L3/L4 трафика до уровня peer-interface         | 
-| **Session Extended**      | ''epdg_session_ike_sa_lifetime_seconds'' (Histogram), ''epdg_session_gtp_bearers_total'' (по ''apn''/''qci''), ''epdg_session_diameter_sessions_total'' (per-application), ''epdg_session_subscribers_by_apn''                                   | Subscriber-level analytics для capacity planning           | 
-| **Service KPI Extended**  | ''epdg_service_detach_total'' (по ''reason''/''initiator''), ''epdg_service_bearer_operations_total'', ''epdg_service_throughput_bytes_per_second'', ''epdg_service_packets_lost_total''                                                         | Полноценный set KPI уровня QoE                             | 
-| **Application Extended**  | ''epdg_app_threads_active'', ''epdg_app_memory_allocations_total'', ''epdg_app_io_operations_total'', ''epdg_app_io_bytes_total'', ''epdg_app_io_wait_seconds_total'', ''epdg_app_event_loop_lag_seconds'', ''epdg_app_file_descriptors_limit''  | Глубокая app-level observability для performance tuning    | 
-| **System Extended**       | ''epdg_system_cpu_load_average'' (1m/5m/15m), ''epdg_system_disk_io_operations_total'', ''epdg_system_disk_io_time_seconds_total'', ''epdg_system_network_bytes_total'', ''epdg_system_network_errors_total''                                    | Комплексная картина ресурсов без внешних node_exporter'ов  | 
- 
-==== 13.2 Планируемые функциональные расширения ==== 
- 
-^ Направление ^ Описание ^ 
-| **REST API для просмотра сессий** | OpenAPI 3.0-совместимый API с поиском по IMSI/MSISDN/IP, детализацией IKE SA / Child SA / GTP-bearer; Swagger UI для интерактивного использования | 
-| **Web UI Session Browser (SPA** | Встроенный web-интерфейс для техподдержки: real-time поиск сессий, фильтрация по APN/state, визуализация IPSec SA и bearer lifetime | 
-| **Zabbix Template pack** | Готовые YAML-шаблоны Zabbix 7.0 с HTTP Agent + Prometheus Pattern preprocessing, auto-discovery items, dependent items, trigger expressions | 
-| **Alert Config UI** | Web-интерфейс создания/редактирования Prometheus alert rules без ручного YAML-редактирования, с validation и preview | 
-| **Расширение EPDG-MIB** | Доведение SNMP OID покрытия до 60+ (включая плановые метрики из §13.1), generation MIB-subtree на лету при изменении экспортёра | 
-| **Distributed tracing hooks** | OpenTelemetry export для корреляции IKEv2 → Diameter → GTP-C latency в одном trace (отладка end-to-end attach задержек) | 
-| **QoE MOS proxy** | Косвенная оценка MOS / R-factor через packet loss + jitter estimation на GTP-U data plane (без polling probe-решений) | 
- 
-==== 13.3 Интеграционный roadmap ==== 
- 
-<mermaid> 
-timeline 
-    title Roadmap этапы расширения мониторинга 
-    Расширение метрик : Network + Session + KPI + App + System 
-    REST API + SPA : Session Browser UI + OpenAPI 3.0 
-    Ops-tooling : Zabbix templates + Alert Config UI 
-    Advanced observability : OpenTelemetry + Distributed tracing 
-    QoE probe : MOS/R-factor proxy на GTP-U 
-</mermaid> 
- 
-Конкретные сроки реализации определяются дорожной картой релизов VAS Experts и согласуются с клиентскими проектами. 
- 
- 
-===== 14. Заключение ===== 
- 
-**VAS Experts ePDG Monitoring** — встроенный мониторинг шлюза VoWiFi с полным покрытием всех интерфейсов 3GPP EPC non-3GPP access: 
- 
-  - **Сквозное покрытие SWu → S2b** — IKEv2 (SWu), Diameter SWm/SWx/S6b, GTPv2-C + GTP-U (S2b), на всех уровнях L2–L9. **33 метрики** **47 SNMP OID** **14 trap notifications** 
-  - **Скорость реагирования** — 10-секундный цикл сбора, 13+ алармов с hysteresis, автоэскалация через Email/SNMP Trap/Webhook. 
-  - **Открытость интеграции** — Prometheus, SNMP v2c Enterprise MIB, Grafana, Alertmanager webhooks. Совместимость с Nokia NetAct, HP OpenView, IBM Tivoli, Zabbix, PRTG. 
-  - **Полнота визуализации** — 4 дашборда Grafana, 35+ панелей, **34 recording rules** для pre-aggregated KPI (attach success rate, p95/p99 latency, throughput). 
-  - **Минимальная стоимость владения** — самодостаточный пакет ''fast-epdg'', без внешних агентов / runtime-зависимостей, развёртывание за 5 минут, нативный ''/metrics'' endpoint. 
-  - **Единый стек с EPC Monitoring** — полная интеграция в общий Prometheus/Grafana/Alertmanager оператора вместе с DPI/SMF/PCEF/FastPCRF. 
- 
-==== Следующие шаги ==== 
- 
-Для получения демонстрации, технической спецификации или коммерческого предложения: 
- 
-  * **Сайт:** [[https://vasexperts.ru|vasexperts.ru]] 
-  * **Техническая поддержка:** [[mailto:support@vasexperts.ru|support@vasexperts.ru]] 
-  * **Отдел продаж:** [[mailto:sales@vasexperts.ru|sales@vasexperts.ru]] 
- 
----- 
- 
-//VAS Experts — российский разработчик решений глубокой инспекции трафика (DPI), управления политиками и тарификации, шлюзов VoWiFi для операторов мобильной и фиксированной связи. Продукты VAS Experts используются операторами в России и странах СНГ для СОРМ, BRAS, NAT/CG-NAT, QoS, пакетного ядра LTE и VoWiFi.//