События мониторинга#

Все компоненты Alert Manager публикуют метрики мониторинга в формате Prometheus, что позволяет настроить их сбор с использованием Объединенного мониторинга Unimon (MONA) в составе Platform V Monitor (OPM).

Для возможности отслеживания источника все события маркируются на уровне модулей следующими метками (метки модуля, namespace и pod добавляются на этапе обогащения метками в Unimon Agent):

Метка

Пример

Значение

node_cluster

edevgen

Кластер (плечо)

Модули публикуют следующие метрики используемых библиотек:

Библиотека

Имена метрик

Kafka

kafka_*

HikariCP

hikaricp_*

HttpClient

httpcomponents_httpclient_*

Специфичные для модулей метрики:

Модуль

Метрика

Тип

Метки

Значение

worker

almgr_worker_rule_execution_time

Timer

rule_project, rule_id, rule_version

Полное время исполнения первичного правила

worker

almgr_worker_rule_execution_time_abyss

Timer

rule_project, rule_id, rule_version

Время запроса к Abyss во время исполнения

worker

almgr_worker_tasks_count

Gauge

project

Распределение задач между узлами

alerting

almgr_alerting_processing_full_time

Timer

group_rule_project, group_rule_id, group_rule_version

Полное время обработки события

alerting

almgr_alerting_rules_out_of_sync

Gauge

-

Количество несинхронизированных правил отклонений (*)

alerting

almgr_alerting_group_rules_out_of_sync

Gauge

-

Количество несинхронизированных правил уведомлений (*)

(*) Правило считается несинхронизированным, если его состояние отличается между alerting и worker. Значение метрики -1 означает ошибку при проверке состояния правил. На неактивном плече значение всегда 0. Для получения более детальной информации из консоли любой из реплик alerting на активном плече может быть выполнена следующая команда: curl localhost:8080/actuator/tasks/worker/status