События мониторинга#

Все компоненты Alert Manager публикуют метрики мониторинга в формате Prometheus, что позволяет настроить их сбор с использованием Объединенного мониторинга Unimon (MONA) в составе Platform V Monitor (OPM).

Для возможности отслеживания источника все события маркируются на уровне модулей следующими метками (метки модуля, namespace и pod добавляются на этапе обогащения метками в Unimon Agent):

Метка	Пример	Значение
`node_cluster`	`edevgen`	Кластер (плечо)

Модули публикуют следующие метрики используемых библиотек:

Библиотека	Имена метрик
Kafka	`kafka_*`
HikariCP	`hikaricp_*`
HttpClient	`httpcomponents_httpclient_*`

Специфичные для модулей метрики:

Модуль	Метрика	Тип	Метки	Значение
worker	`almgr_worker_rule_execution_time`	Timer	`rule_project`, `rule_id`, `rule_version`	Полное время исполнения первичного правила
worker	`almgr_worker_rule_execution_time_abyss`	Timer	`rule_project`, `rule_id`, `rule_version`	Время запроса к Abyss во время исполнения
worker	`almgr_worker_tasks_count`	Gauge	`project`	Распределение задач между узлами
alerting	`almgr_alerting_processing_full_time`	Timer	`group_rule_project`, `group_rule_id`, `group_rule_version`	Полное время обработки события
alerting	`almgr_alerting_rules_out_of_sync`	Gauge	-	Количество несинхронизированных правил отклонений (*)
alerting	`almgr_alerting_group_rules_out_of_sync`	Gauge	-	Количество несинхронизированных правил уведомлений (*)

(*) Правило считается несинхронизированным, если его состояние отличается между alerting и worker. Значение метрики -1 означает ошибку при проверке состояния правил. На неактивном плече значение всегда 0. Для получения более детальной информации из консоли любой из реплик alerting на активном плече может быть выполнена следующая команда: curl localhost:8080/actuator/tasks/worker/status