Различия
Показаны различия между двумя версиями страницы.
| Предыдущая версия справа и слеваПредыдущая версияСледующая версия | Предыдущая версия | ||
| dpi:epdg:monitoring [2026/04/29 11:59] – удалено - внешнее изменение (Дата неизвестна) 127.0.0.1 | dpi:epdg:monitoring [2026/04/29 12:01] (текущий) – elena.krasnobryzh | ||
|---|---|---|---|
| Строка 1: | Строка 1: | ||
| + | {{indexmenu_n> | ||
| + | ====== Мониторинг ePDG ====== | ||
| + | |||
| + | ===== Комплексная система мониторинга шлюза VoWiFi (ePDG) ===== | ||
| + | |||
| + | ===== 1. Обзор решения ===== | ||
| + | |||
| + | Система мониторинга VAS Experts ePDG Monitoring обеспечивает полный операционный контроль компонента **fast-epdg** — шлюза VoWiFi (Voice over WiFi), работающего согласно 3GPP TS 29.273 и TS 24.302. Шлюз обеспечивает защищённую передачу голосового и пакетного трафика через недоверенные каналы Wi-Fi с IPSec/IKEv2 туннелированием и интеграцию с EPC-ядром через интерфейсы SWu, SWm, SWx, S2b, S6b. | ||
| + | |||
| + | Решение предоставляет единую платформу мониторинга для оперативных служб мобильного оператора — от уровня IPSec SA (L3 security) до KPI абонентского опыта VoWiFi. | ||
| + | |||
| + | ==== Ключевые преимущества ==== | ||
| + | |||
| + | * **Мониторинг в реальном времени** — обновление метрик каждые 10-15 секунд, | ||
| + | * **Проактивное обнаружение аномалий** — 20+ алармов с автоматической эскалацией по важности. Недоступность PGW/AAA, рост задержек IKEv2, рост ошибок EAP-AKA' | ||
| + | * **Открытые интерфейсы интеграции** — Prometheus, SNMP v2c, Alertmanager webhooks, поддержка Grafana. Интеграция в существующую NMS/OSS инфраструктуру без привязки к вендору. | ||
| + | * **Минимальные внешние зависимости на уровне плагинов** — встроенный ''/ | ||
| + | * **Покрытие всего стека SWu → S2b** — IKEv2 (SWu), Diameter SWm/ | ||
| + | |||
| + | ===== 2. Архитектура системы мониторинга ===== | ||
| + | |||
| + | < | ||
| + | flowchart TB | ||
| + | subgraph DataPlane[" | ||
| + | IPSEC[" | ||
| + | GTPU[" | ||
| + | end | ||
| + | |||
| + | subgraph ControlPlane[" | ||
| + | IKE[" | ||
| + | DIAM[" | ||
| + | GTPC[" | ||
| + | CTRL[" | ||
| + | end | ||
| + | |||
| + | subgraph Collection[" | ||
| + | PROMEXP[" | ||
| + | end | ||
| + | |||
| + | subgraph Storage[" | ||
| + | PROM[" | ||
| + | end | ||
| + | |||
| + | subgraph Visualization[" | ||
| + | GRAF[" | ||
| + | end | ||
| + | |||
| + | subgraph Alerting[" | ||
| + | AM[" | ||
| + | EMAIL[" | ||
| + | SNMPGW[" | ||
| + | NMS[" | ||
| + | WH[" | ||
| + | end | ||
| + | |||
| + | IKE --> PROMEXP | ||
| + | IPSEC --> PROMEXP | ||
| + | GTPC --> PROMEXP | ||
| + | GTPU --> PROMEXP | ||
| + | DIAM --> PROMEXP | ||
| + | CTRL --> PROMEXP | ||
| + | |||
| + | PROMEXP --> PROM | ||
| + | PROM --> GRAF | ||
| + | PROM --> AM | ||
| + | |||
| + | AM --> EMAIL | ||
| + | AM --> SNMPGW | ||
| + | SNMPGW --> NMS | ||
| + | AM --> WH | ||
| + | </ | ||
| + | |||
| + | ==== Четырёхуровневая архитектура мониторинга ==== | ||
| + | |||
| + | ^ Уровень | ||
| + | | **Сбор** (Collection) | ||
| + | | **Хранение** (Storage) | ||
| + | | **Визуализация** (Visualization) | ||
| + | | **Сигнализация** (Alerting) | ||
| + | |||
| + | |||
| + | ===== 3. Компоненты и метрики ===== | ||
| + | |||
| + | ==== Покрытие мониторингом ==== | ||
| + | |||
| + | < | ||
| + | flowchart LR | ||
| + | EXP[" | ||
| + | |||
| + | EXP --> CFG[" | ||
| + | EXP --> NET[" | ||
| + | EXP --> PROTO[" | ||
| + | EXP --> SVC[" | ||
| + | EXP --> SESS[" | ||
| + | EXP --> APP[" | ||
| + | EXP --> SYS[" | ||
| + | |||
| + | PROTO --> IKEV2[" | ||
| + | PROTO --> GTPC[" | ||
| + | PROTO --> GTPU[" | ||
| + | PROTO --> DIA[" | ||
| + | </ | ||
| + | |||
| + | ==== Количественный обзор по категориям ==== | ||
| + | |||
| + | ^ Категория ^ Кол-во метрик ^ Интервал опроса ^ Ключевые показатели ^ | ||
| + | | **Config** | 2 | 10 с | Статус конфигурации, | ||
| + | | **Network** | 1 | 10 с | Статус соединений с узлами (PGW/ | ||
| + | | **IKEv2 (SWu)** | 3 | 10 с | Сообщения по типам (IKE_SA_INIT, | ||
| + | | **GTPv2-C (S2b)** | 4 | 10 с | Сообщения (Create/ | ||
| + | | **GTP-U data plane** | 3 | 10 с | Packets/ | ||
| + | | **Diameter (SWm/ | ||
| + | | **Service KPI** | 4 | 10 с | Процент успешных попыток, | ||
| + | | **Session State** | 4 | 10 с | IKE SA, Child SA, GTP-сессии, | ||
| + | | **Application** | 3 | 10 с | Количество потоков, | ||
| + | | **System** | 4 | 10 с | Утилизация CPU, память, | ||
| + | | **Итого** | **33 метрики** | | | | ||
| + | |||
| + | ==== Принципы именования ==== | ||
| + | |||
| + | Все метрики имеют префикс '' | ||
| + | |||
| + | < | ||
| + | epdg_ | ||
| + | ├── config_* | ||
| + | ├── network_* | ||
| + | ├── ikev2_* | ||
| + | ├── gtp_* # S2b control-plane GTPv2-C | ||
| + | ├── gtpu_* | ||
| + | ├── diameter_* | ||
| + | ├── service_* | ||
| + | ├── session_* | ||
| + | ├── app_* # Метрики приложения (memory, threads, logs) | ||
| + | └── system_* | ||
| + | </ | ||
| + | |||
| + | ===== 4. Перечень метрик ===== | ||
| + | |||
| + | Все метрики экспортируются через единый ''/ | ||
| + | |||
| + | ==== 4.1 Config (2) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.2 Network (1) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | |||
| + | ==== 4.3 IKEv2 SWu (3) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.4 GTPv2-C S2b (4) ==== | ||
| + | |||
| + | ^ Имя | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.5 GTP-U data plane (3) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.6 Diameter SWm/SWx/S6b (5) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.7 Service KPI (4) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.8 Session State (4) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.9 Application (3) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== 4.10 System (4) ==== | ||
| + | |||
| + | ^ Имя ^ Тип ^ Назначение ^ | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | | '' | ||
| + | |||
| + | ==== Типы метрик (напоминание) ==== | ||
| + | |||
| + | ^ Тип ^ Назначение ^ | ||
| + | | **Counter** | Монотонно растущий счётчик (сообщения, | ||
| + | | **Gauge** | Текущее значение (активные сессии, | ||
| + | | **Histogram** | Распределение значений с автоматическими срезами по интервалам (длительность, | ||
| + | |||
| + | ===== 5. Интерфейсы интеграции ===== | ||
| + | |||
| + | < | ||
| + | flowchart LR | ||
| + | CORE[" | ||
| + | |||
| + | CORE --> P[" | ||
| + | CORE --> S[" | ||
| + | CORE --> G[" | ||
| + | CORE --> W[" | ||
| + | CORE --> AM[" | ||
| + | |||
| + | P --> P1[" | ||
| + | S --> S1[" | ||
| + | G --> G1[" | ||
| + | W --> W1[" | ||
| + | AM --> AM1[" | ||
| + | </ | ||
| + | |||
| + | ==== 5.1 Prometheus (CNCF Standard) ==== | ||
| + | |||
| + | Нативный ''/ | ||
| + | |||
| + | ==== 5.2 SNMP v2c — EPDG-MIB ==== | ||
| + | |||
| + | **47 OID** покрывают SMI-аналог Prometheus-метрик + **14 trap notifications** (с парами raise/clear согласно RFC 3877 ALARM-MIB). Совместимость с HP OpenView, IBM Tivoli NetCool, Nokia NetAct, Huawei U2000. | ||
| + | |||
| + | < | ||
| + | flowchart TB | ||
| + | IANA[" | ||
| + | VAS[" | ||
| + | EPDG[" | ||
| + | EPC[" | ||
| + | |||
| + | IANA --> VAS | ||
| + | VAS --> EPDG | ||
| + | VAS --> EPC | ||
| + | |||
| + | EPDG --> OBJ[" | ||
| + | EPDG --> NOTIF[" | ||
| + | EPDG --> CONF[" | ||
| + | |||
| + | OBJ --> SERVICE[" | ||
| + | OBJ --> IKE[" | ||
| + | OBJ --> GTP[" | ||
| + | OBJ --> DIAM[" | ||
| + | OBJ --> SESS[" | ||
| + | OBJ --> SYS[" | ||
| + | OBJ --> NET[" | ||
| + | |||
| + | NOTIF --> TRAPAGR[" | ||
| + | </ | ||
| + | |||
| + | Примеры SNMP-запросов: | ||
| + | |||
| + | <code bash> | ||
| + | # Все дерево ePDG | ||
| + | snmpwalk -v2c -c public < | ||
| + | |||
| + | # Service availability (Gauge 0..1) | ||
| + | snmpget -v2c -c public < | ||
| + | </ | ||
| + | |||
| + | |||
| + | ==== 5.3 Grafana ==== | ||
| + | |||
| + | **4 поддерживающих JSON дашборда** (35+ панелей суммарно): | ||
| + | * **ePDG Overview** — доступность, | ||
| + | * **IKEv2 Details** — сообщения, | ||
| + | * **GTP Details** — GTPv2-C + GTP-U данные по PGW узлам | ||
| + | * **Diameter Details** — сообщения по приложениям, | ||
| + | |||
| + | Автоматическая установка через API, поддерживающее Grafana. Адаптивный дизайн для мониторов состояния центра управления сети (NOC) с автообновлением каждые 15 секунд. | ||
| + | |||
| + | ==== 5.4 Alertmanager Webhooks ==== | ||
| + | |||
| + | Webhook-интерфейс для интеграции с любой системой оповещений: | ||
| + | |||
| + | ===== 6. Система алармов ===== | ||
| + | |||
| + | ==== Категории алармов ==== | ||
| + | |||
| + | ^ Критичность | ||
| + | | **Critical** | ||
| + | | **Warning** | ||
| + | |||
| + | ==== Полный перечень алармов (20+ правил) ==== | ||
| + | |||
| + | < | ||
| + | flowchart LR | ||
| + | AL[" | ||
| + | |||
| + | AL --> CR[" | ||
| + | AL --> WR[" | ||
| + | AL --> INFO[" | ||
| + | |||
| + | CR --> C1[" | ||
| + | CR --> C2[" | ||
| + | CR --> C3[" | ||
| + | CR --> C4[" | ||
| + | CR --> C5[" | ||
| + | |||
| + | WR --> W1[" | ||
| + | WR --> W2[" | ||
| + | WR --> W3[" | ||
| + | WR --> W4[" | ||
| + | WR --> W5[" | ||
| + | WR --> W6[" | ||
| + | WR --> W7[" | ||
| + | WR --> W8[" | ||
| + | |||
| + | INFO --> I1[" | ||
| + | INFO --> I2[" | ||
| + | INFO --> I3[" | ||
| + | </ | ||
| + | |||
| + | ==== Процесс обработки алармов ==== | ||
| + | |||
| + | < | ||
| + | sequenceDiagram | ||
| + | participant M as Метрика (Prometheus) | ||
| + | participant R as Alert Rule (PromQL) | ||
| + | participant AM as Alertmanager | ||
| + | participant E as Email (SMTP) | ||
| + | participant SG as SNMP Trap Gateway | ||
| + | participant NMS as Внешняя NMS | ||
| + | participant W as Webhook (ChatOps) | ||
| + | |||
| + | M->> | ||
| + | R->> | ||
| + | R->> | ||
| + | AM->> | ||
| + | AM->> | ||
| + | |||
| + | alt severity = critical | ||
| + | AM->> | ||
| + | AM->> | ||
| + | SG->> | ||
| + | AM->> | ||
| + | else severity = warning | ||
| + | AM->> | ||
| + | end | ||
| + | |||
| + | Note over M,R: Метрика возвращается в норму | ||
| + | R->> | ||
| + | R->> | ||
| + | AM->> | ||
| + | </ | ||
| + | |||
| + | ==== Особенности ==== | ||
| + | |||
| + | * **Inhibition**: | ||
| + | * **Grouping**: | ||
| + | * **Dead time / Hysteresis**: | ||
| + | * **Trap pairing**: raise/clear одновременных событий для соответствия RFC 3877 ALARM-MIB | ||
| + | |||
| + | |||
| + | ===== 7. Визуализация и операционные дашборды ===== | ||
| + | |||
| + | ==== Состав дашбордов ==== | ||
| + | |||
| + | ^ Дашборд ^ Панели ^ Назначение ^ | ||
| + | | **ePDG Overview** | 10 | Доступность сервиса, | ||
| + | | **IKEv2 Details** | 10 | Сообщения в секунду по типам, гистограмма продолжительности запросов, | ||
| + | | **GTP Details** | 8 | Сообщения GTPv2-C по PGW, повторные передачи, | ||
| + | | **Diameter Details** | 7 | Количество сообщений по приложениям (SWm/ | ||
| + | |||
| + | ==== Дизайн для Центра управления сетью (NOC) ==== | ||
| + | |||
| + | < | ||
| + | flowchart TB | ||
| + | NOC[" | ||
| + | |||
| + | NOC --> OVER[" | ||
| + | NOC --> IKE[" | ||
| + | NOC --> GTP[" | ||
| + | NOC --> DIA[" | ||
| + | |||
| + | OVER --> | ||
| + | OVER --> | ||
| + | OVER --> | ||
| + | </ | ||
| + | |||
| + | * **Автообновление**: | ||
| + | * **Адаптивная цветовая схема**: | ||
| + | * **Drill-down**: | ||
| + | * **Time-range selector**: от 5 минут до 30 дней истории | ||
| + | * **JSON provisioning**: | ||
| + | |||
| + | ===== 8. Интеграция в единый стек EPC Monitoring ===== | ||
| + | |||
| + | ePDG мониторинг полностью интегрирован в общий мониторинг пакетного ядра: | ||
| + | |||
| + | < | ||
| + | flowchart TB | ||
| + | subgraph Common[" | ||
| + | PROM[" | ||
| + | GRAF[" | ||
| + | AM[" | ||
| + | end | ||
| + | |||
| + | subgraph Sources[" | ||
| + | DPI[" | ||
| + | SMF[" | ||
| + | PCEF[" | ||
| + | PCRF[" | ||
| + | EPDG[" | ||
| + | end | ||
| + | |||
| + | DPI --> PROM | ||
| + | SMF --> PROM | ||
| + | PCEF --> PROM | ||
| + | PCRF --> PROM | ||
| + | EPDG --> PROM | ||
| + | |||
| + | PROM --> GRAF | ||
| + | PROM --> AM | ||
| + | </ | ||
| + | |||
| + | Оператор NOC видит **все компоненты EPC** (DPI, SMF, PCEF, FastPCRF, ePDG) в одном интерфейсе Grafana, с единой системой алармов и маршрутизации уведомлений через один Alertmanager. | ||
| + | |||
| + | ===== 9. Покрытие метрик по уровням OSI ===== | ||
| + | |||
| + | < | ||
| + | graph LR | ||
| + | L1["L1 Physical< | ||
| + | L2["L2 Data Link< | ||
| + | L3["L3 Network< | ||
| + | L4["L4 Transport< | ||
| + | L5["L5 Session< | ||
| + | L6["L6 Presentation< | ||
| + | L7["L7 Application< | ||
| + | Operations[" | ||
| + | CX["CX Level< | ||
| + | |||
| + | L1 --> L2 --> L3 --> L4 --> L5 --> L6 --> L7 --> Operations --> CX | ||
| + | |||
| + | style L1 fill:# | ||
| + | style L2 fill:# | ||
| + | style L3 fill:# | ||
| + | style L4 fill:# | ||
| + | style L5 fill:# | ||
| + | style L6 fill:# | ||
| + | style L7 fill:# | ||
| + | style Operations fill:# | ||
| + | style CX fill:# | ||
| + | </ | ||
| + | |||
| + | ==== Детализация метрик по уровням ==== | ||
| + | Модель OSI: | ||
| + | |||
| + | ^ Уровень | ||
| + | | **L1/L2 Physical / Data Link** | ||
| + | | **L3 Network / IPSec tunnels** | ||
| + | | **L4 Transport** | ||
| + | | **L5 Session** | ||
| + | | **L6 Presentation/ | ||
| + | | **L7 Application** | ||
| + | |||
| + | Операторский уровень: | ||
| + | ^ Уровень ^ Метрики ^ Примеры ^ | ||
| + | | **Operations** | 11 | '' | ||
| + | | **Customer Experience** | 3 | '' | ||
| + | |||
| + | ==== Уровень 9: Качество восприятия сервиса VoWiFi ==== | ||
| + | |||
| + | ^ QoE-индикатор | ||
| + | | **Время подключения VoWiFi** | ||
| + | | **Непрерывность сервиса** | ||
| + | | **Успешность аутентификации** | ||
| + | | **Задержка назначения bearer** | ||
| + | | **Ошибки GTP-U tunnel** | ||
| + | | **IKEv2-надёжность** | ||
| + | |||
| + | |||
| + | ===== 10. Стандарты и совместимость ===== | ||
| + | |||
| + | ^ Стандарт | ||
| + | | **3GPP TS 29.273** | ||
| + | | **3GPP TS 24.302** | ||
| + | | **3GPP TS 33.402** | ||
| + | | **3GPP TS 23.402** | ||
| + | | **3GPP TS 32.421** | ||
| + | | **3GPP TS 32.409** | ||
| + | | **IETF RFC 7296** | ||
| + | | **IETF RFC 6733** | ||
| + | | **IETF RFC 4187** | ||
| + | | **IETF RFC 3877** | ||
| + | | **IETF RFC 3418** | ||
| + | | **Prometheus Exposition Format** | ||
| + | | **OpenMetrics** | ||
| + | |||
| + | |||
| + | ===== 11. Модель развёртывания ===== | ||
| + | |||
| + | < | ||
| + | flowchart TB | ||
| + | subgraph Host1[" | ||
| + | EPDG[" | ||
| + | PLUGIN["/ | ||
| + | EPDG -.-> PLUGIN | ||
| + | end | ||
| + | |||
| + | subgraph Host2[" | ||
| + | PROM[" | ||
| + | GRAF[" | ||
| + | AM[" | ||
| + | SNMPTRAP[" | ||
| + | PROM --> GRAF | ||
| + | PROM --> AM | ||
| + | AM --> SNMPTRAP | ||
| + | end | ||
| + | |||
| + | subgraph Host3[" | ||
| + | NMS[" | ||
| + | CHAT[" | ||
| + | end | ||
| + | |||
| + | PLUGIN -->|HTTP : | ||
| + | SNMPTRAP -->|UDP 162| NMS | ||
| + | AM --> | ||
| + | </ | ||
| + | |||
| + | ==== Характеристики развёртывания ==== | ||
| + | |||
| + | ^ Параметр | ||
| + | | **Metrics footprint** | ||
| + | | **Внешние зависимости** | ||
| + | | **Управление** | ||
| + | | **Конфигурация** | ||
| + | | **Обновление** | ||
| + | | **ОС** | ||
| + | | **Порт** | ||
| + | | **Время развёртывания** | ||
| + | |||
| + | ==== Варианты размещения ==== | ||
| + | |||
| + | * **On-premise** — плагин работает в адресном пространстве fast-epdg, нулевое потребление ресурсов | ||
| + | * **Co-located Prometheus** — Prometheus собирает метрики с приложения, | ||
| + | * **Централизованный** — единый Prometheus собирает со всех ePDG узлов | ||
| + | |||
| + | ===== 12. Конфигурация экспортёра метрик ===== | ||
| + | |||
| + | Секция '' | ||
| + | |||
| + | < | ||
| + | monitoring { | ||
| + | enabled = yes | ||
| + | listen_port = 9817 | ||
| + | listen_address = 0.0.0.0 | ||
| + | update_interval = 10 | ||
| + | metrics { | ||
| + | ikev2 = yes | ||
| + | gtp = yes | ||
| + | diameter = yes | ||
| + | service = yes | ||
| + | session = yes | ||
| + | app = yes | ||
| + | system = yes | ||
| + | } | ||
| + | } | ||
| + | </ | ||
| + | |||
| + | Каждая группа метрик может быть независимо включена/ | ||
| + | |||