События мониторинга#

Все компоненты Indicator публикуют метрики мониторинга в формате Prometheus, что позволяет настроить их сбор с использованием Объединенного мониторинга Unimon (MONA) в составе Platform V Monitor (OPM). Учет нагрузки в разрезе потребителей можно посмотреть через компонент Indicator, данные отображаются на дашборде Indicator metrics.

Дашборд Indicator metrics состоит из набора панелей:

Наименование панели / имя метрики

Описание

Тип панели

Общая информация /

Общая информация по запущенному приложению indicator, имя модуля контейнеризации, на котором работает приложение

таблица

Количество дашбордов / grafana_stat_totals_dashboard

Информация о количестве дашбордов

таблица

Количество авторизованных пользователей / grafana_stat_total_users

Информация о количестве пользователей

таблица

Количество активных пользователей / grafana_stat_active_users

Информация о количестве активных пользователей

таблица

Время работы / process_start_time_seconds

Время работы кластера с момента старта (в разрезе «labels.app»)

таблица

HTTP запросы (общее количество) / http_request_total

Количество HTTP запросов отправленных приложением Indicator (HTTP request count в разрезе «labels.app»)

график

HTTP запросы (общее количество в разрезе методов) / http_request_total

Количество HTTP запросов отправленных приложением Indicator (HTTP request count в разрезе «labels.app» и методов),

график

HTTP запросы (общее количество в разрезе ошибочных статусов ответа) / http_request_total

Количество HTTP запросов отправленных приложением Indicator с ошибками (HTTP request error count в разрезе «labels.app» и код состояния HTTP: 4xx, 5xx),

график

Суммарная задержка по запросам / http_request_duration_milliseconds_sum

Суммарная длительность HTTP запроса в разрезе «labels.app» и методов

график

HTTP ответы (общее количество в разрезе статусов ответов) / grafana_page_response_status_total

Количество HTTP запросов с ошибками

график

Количество вызовов API / grafana_api_admin_user_created_total,grafana_api_dashboard_snapshot_create_total,grafana_api_dashboard_snapshot_get_total,grafana_api_response_status_total

Количестве запросов к приложению Indicator в разрезе «labels.app» и методов

график

Установка клиентской части компонента Объединенный мониторинг Unimon (MONA), входящего в состав продукта Platform V Monitor (OPM), описана в документации к сервису мониторинга («Руководство по установке», раздел «Автоматическая установка (опционально) компонентом Deploy tools»)

Метрики Unimon-sender#

Сервис Unimon (MONA) передает стандартные метрики мониторинга. Для сбора метрик используется компонент Объединенный мониторинг Unimon. В таблице представлены варианты метрик снимаемые модулем Unimon-sender по умолчанию.

Название метрики

Описание метрики

jvm_threads_states_threads

Текущее количество потоков, имеющих статус NEW

jvm_classes_loaded_classes

Количество классов, загруженных на данный момент в JVM

process_cpu_usage

Процент использования процессора за недавнее время процессом JVM

jvm_memory_used_bytes

Объем памяти, используемой JVM

jvm_gc_max_data_size_bytes

Максимальный размер пула памяти старого поколения

system_cpu_usage

Процент использования процессора за недавнее время всей системой

process_uptime_seconds

Время работы JVM

hikaricp_connections_usage_seconds

Время использования соединения

hikaricp_connections_usage_seconds_max

Максимальное время использования соединения

hikaricp_connections_max

Максимальное количество соединений

tomcat_sessions_rejected_sessions_total

Общее количество подключений Tomcat, которые не были приняты

tomcat_sessions_active_max_sessions

Максимальное количество подключений Tomcat, с момента старта JVM, либо с момента последнего сброса значения данной метрики

hikaricp_connections_active

Активные соединения

process_files_open_files

Количество открытых файловых дескрипторов

hikaricp_connections

Общее количество соединений

hikaricp_connections_timeout_total

Общее количество тайм-аутов подключения

hikaricp_connections_min

Минимальное количество соединений

jvm_gc_pause_seconds

Время ГБ в паузе в секундах

jvm_gc_pause_seconds_max

Максимальное время ГБ в паузе в секундах

process_start_time_seconds

Время начала процесса, в секундах, по систему UNIX Epoch

jvm_threads_peak_threads

Максимальное количество активных потоков, зарегистрированное с момента запуска JVM или с момента последнего сброса данного значения

system_cpu_count

Количество процессоров, доступных виртуальной машине Java

jvm_memory_committed_bytes

Объем памяти в байтах, выделенный для использования виртуальной машиной Java

jvm_threads_states_threads

Текущее количество потоков, имеющих статус NEW

jdbc_connections_max

Максимальное количество активных подключений, которые могут быть выделены одновременно

jvm_buffer_count_buffers

Примерное количество буферов в пуле памяти JVM

jdbc_connections_idle

Количество установленных, но неработающих соединений

hikaricp_connections_acquire_seconds

Время установления соединения

hikaricp_connections_acquire_seconds_max

Максимальное время установления соединения

hikaricp_connections_pending

Рассмотрение

jvm_threads_live_threads

Текущее количество активных потоков, включая демон-потоки

jvm_gc_live_data_size_bytes

Размер пула долговременных объектов (old generation) после полного цикла работы сборщика мусора (garbage collector), в байтах

jvm_threads_daemon_threads

Текущее количество активных демон-потоков

jvm_classes_unloaded_classes_total

Количество выгруженных классов JVM

process_files_max_files

Максимальное количество дескрипторов файлов

tomcat_sessions_active_current_sessions

Количество подключений Tomcat, активных на данный момент

jvm_gc_memory_allocated_bytes_total

Общее количество увеличений пула памяти в пуле «быстрых» (young generation) объектов (Eden Space)

hikaricp_connections_idle

Неработающие соединения

tomcat_sessions_expired_sessions_total

Общее количество закончившихся по таймауту подключений Tomcat

tomcat_sessions_alive_max_seconds

Максимальная продолжительность жизни подключения Tomcat, в секундах

jvm_buffer_total_capacity_bytes

Общий объем памяти, доступной для буфера JVM, в байтах

jvm_memory_max_bytes

Максимальный объем памяти, который может быть использован для управления памятью, в байтах

jdbc_connections_active

Текущее количество активных подключений, выделенных из источника данных

http_server_requests_seconds

Длительность HTTP-запроса в секундах

http_server_requests_seconds_max

Длительность HTTP-запроса в секундах, максимальная

system_load_average_1m

Средняя нагрузка системы на процессоры за 1 мин

jvm_buffer_memory_used_bytes

Объем занятой памяти буфером JVM, в байтах

jdbc_connections_min

Minimum number of idle connections in the pool

tomcat_sessions_created_sessions_total

Общее количество созданных подключений Tomcat

jvm_gc_memory_promoted_bytes_total

Общее количество увеличений пула памяти в пуле долговременных (old generation) объектов

logback_events_total

Количество событий уровня ошибок, которые попали в журналы

hikaricp_connections_creation_seconds_max

Максимальное время создания соединения

hikaricp_connections_creation_seconds

Время создания соединения в секундах

Данные метрики можно увидеть на общих дашбордах JVM (Micrometer) и Статистика Spring Boot.

Метрики Indicator#

Прикладные метрики pod Indicator для мониторинга и диагностики проблем.

Название метрики

Описание метрики

cortex_deprecated_flags_inuse_total

Количество установленных в данный момент устаревших флагов.

cortex_experimental_features_in_use_total

Количество используемых экспериментальных функций.

go_gc_duration_seconds

Сводная информация о продолжительности паузы в циклах сборки мусора.

go_gc_duration_seconds

Сводная информация о продолжительности паузы в циклах сборки мусора.

go_goroutines

Количество существующих в настоящее время goroutines.

go_info

Содержит информацию о среде Go.

go_memstats_alloc_bytes

Количество выделенных и все еще используемых байт

go_memstats_alloc_bytes_total

Общее количество выделенных байт, даже если они освобождены.

go_memstats_buck_hash_sys_bytes

Количество байт, используемых хeш-таблицей корзины профилирования.

go_memstats_frees_total

Общее количество освобождений.

go_memstats_gc_cpu_fraction

Доля доступного процессорного времени этой программы, используемая GC с момента запуска программы.

go_memstats_gc_sys_bytes

Количество байт, используемых для метаданных системы сбора мусора.

go_memstats_heap_idle_bytes

Количество байтов кучи, ожидающих использования.

go_memstats_heap_inuse_bytes

Количество используемых байтов кучи.

go_memstats_heap_objects

Количество выделенных объектов.

go_memstats_heap_released_bytes

Количество байтов кучи, освобожденных для операционной системы.

go_memstats_heap_sys_bytes

Количество байт кучи, полученных из системы.

go_memstats_last_gc_time_seconds

Количество секунд, прошедших с последнего цикла GC.

go_memstats_lookups_total

Общее количество поисков по указателю.

go_memstats_mallocs_total

Общее количество mallocs

go_memstats_mcache_inuse_bytes

Количество байт, используемых структурами кеша.

go_memstats_mcache_sys_bytes

Количество байт, используемых для структур кеша, полученных из системы.

go_memstats_mspan_inuse_bytes

Количество байт, используемых структурами спан.

go_memstats_mspan_sys_bytes

Количество байт, используемых для структур спан, полученных из системы.

go_memstats_next_gc_bytes

Количество байт кучи при следующей сборке мусора.

go_memstats_other_sys_bytes

Количество байт, используемых для других системных распределений.

go_memstats_stack_inuse_bytes

Количество байт, используемых распределителем стека

go_memstats_stack_sys_bytes

Количество байт, полученных из системы для распределителя стека.

go_memstats_sys_bytes

Количество байт, полученных из системы.

go_threads

Определяет количество созданных потоков операционной системы.

grafana_alerting_active_alerts

Количество активных alerts

grafana_alerting_execution_time_milliseconds

О продолжительности выполнения предупреждения

grafana_alerting_result_total

счетчик результатов выполнения предупреждения

grafana_api_admin_user_created_total

счетчик, созданный пользователем API admin

grafana_api_dashboard_get_milliseconds

Сводная по продолжительности получения панели мониторинга

grafana_api_dashboard_save_milliseconds

Сводная по продолжительности сохранения панели мониторинга

grafana_api_dashboard_search_milliseconds

Сводная по продолжительности поиска на панели мониторинга

grafana_api_dashboard_snapshot_create_total

Количество созданных снимков панели мониторинга

grafana_api_dashboard_snapshot_external_total создано снимков внешней панели мониторинга

Количество созданных снимков внешней панели мониторинга

grafana_api_dashboard_snapshot_get_total

Загруженные информационные панели

grafana_api_dataproxy_request_all_milliseconds

Информация о продолжительности запроса прокси-сервера данных

grafana_api_login_oauth_total

Счетчик oauth входа в систему API

grafana_api_login_post_total

Счетчик записей входа в систему API

grafana_api_login_saml_total

счетчик saml для входа в API

grafana_api_models_dashboard_insert_total

вставленные информационные панели

grafana_api_org_create_total

Счетчик созданных организаций API

grafana_api_response_status_total

статус HTTP-ответа API

grafana_api_user_signup_started_total

количество пользователей, которые начали процесс регистрации

grafana_aws_cloudwatch_get_metric_data_total

Счетчик для получения временных рядов метрических данных из aws

grafana_aws_cloudwatch_get_metric_statistics_total

Счетчик справок для получения статистики показателей от aws

grafana_aws_cloudwatch_list_metrics_total

Счетчик для получения списка показателей из aws

grafana_build_into

Показатель с постоянным значением, помеченный версией, ревизией, ответвлением и версией go, на основе которой была создана система

grafana_datasource_request_duration_seconds

Сводка исходящих запросов к источнику данных, отправленных из Indicator

grafana_datasource_request_duration_seconds_sum

Сводка исходящих запросов к источнику данных, отправленных из Indicator

grafana_datasource_request_duration_seconds_count

Сводка исходящих запросов к источнику данных, отправленных из Indicator

grafana_datasource_request_in_flight

Индикатор исходящих запросов к источникам данных, отправляемых Indicator в настоящее время

grafana_datasource_request_total

Счетчик исходящих запросов к источнику данных.

grafana_datasource_response_size_bytes

Сводная информация о размерах ответов источника данных, возвращенных в Indicator

grafana_datasource_response_size_bytes_sum

Сводная информация о размерах ответов источника данных, возвращенных в Indicator

grafana_datasource_response_size_bytes_count

Сводная информация о размерах ответов источника данных, возвращенных в Indicator

grafana_db_datasource_query_by_id_total

Счетчик для получения источника данных по идентификатору

grafana_emails_sent_failed

Количество электронных писем, которые Indicator не удалось отправить

grafana_emails_sent_total

Количество электронных писем, отправленных Indicator

grafana_frontend_boot_first_paint_time_seconds

Первая краска для загрузки интерфейса

grafana_frontend_boot_js_done_time_seconds

Начальная загрузка js при загрузке интерфейса

grafana_frontend_boot_load_time_seconds

Измерение времени загрузки интерфейса

grafana_indicator_audit_event_size

размер события аудита

grafana_indicator_audit_event_size

размер отправленного события

grafana_indicator_audit_event_size_sum

сумма всех отправленных событий

grafana_indicator_audit_event_size_count

кол-во отправленных событий

grafana_indicator_audit_write_event_time_millisecond

время отправки события

grafana_indicator_audit_write_event_time_millisecond_sum

суммарное время отправленных событий

grafana_indicator_audit_write_event_time_millisecond_count

кол-во отправленных событий

grafana_indicator_audit_write_event_failed

кол-во отправленных событий с ошибками

grafana_indicator_audit_write_metamodel_time_millisecond

время отправки метамодели

grafana_indicator_audit_write_metamodel_size

размер отправленной метамодели

grafana_indicator_audit_write_event_failed

количество неудачных событий аудита

grafana_indicator_audit_write_event_time_millisecond

время события записи аудита в миллисекундах

grafana_indicator_audit_write_metamodel_size

размер метамодели регистра аудита

grafana_indicator_audit_write_metamodel_time_millisecond

время регистрации метамодели аудита в миллисекундах

grafana_indicator_closed_db_connections_total

Общее количество закрытых соединений за все время

grafana_indicator_datasource_all_error_cont

счетчик вызовов источника данных с любой ошибкой по orgid, user, datasource_id

grafana_indicator_datasource_datastorage_error_cont

счетчик вызовов источника данных с любой ошибкой по orgid, user, datasource_id

grafana_indicator_datasource_query_cnt

счетчик вызовов источника данных по orgid, user, datasource_id

grafana_indicator_datasource_response_size

размер ответа источника данных по orgid, user, datasource_id

grafana_indicator_datasource_response_size_sum

размер ответа источника данных по orgid, user, datasource_id

grafana_indicator_datasource_response_size_count

размер ответа источника данных по orgid, user, datasource_id

grafana_indicator_datasource_response_time

время отклика источника данных (миллисекунды) по orgid, user, datasource_id

grafana_indicator_datasource_response_time_count

время отклика источника данных (кол-во)

grafana_indicator_datasource_response_time_sum

время отклика источника данных (кол-во)

grafana_indicator_max_opened_db_connections_per_period

Количество открытых подключений за период зависит от параметра metrics_refresh_interval_seconds

grafana_indicator_opened_db_connections_current

текущее количество открытых подключений

grafana_indicator_opened_db_connections_idle_current

текущее количество неиспользуемых открытых подключений

grafana_indicator_opened_db_connections_in_use_current

текущее количество используемых открытых соединений

grafana_indicator_opened_db_connections_total

Общее количество открытых соединений за все время

grafana_indicator_postgress_connection_info

показывает текущую базу данных адресов подключений

grafana_indicator_subsystem_start_time_ms

Время запуска служб индикатора в миллисекундах

grafana_indicator_subsystem_start_time_ms_sum

Время запуска служб индикатора в миллисекундах

grafana_indicator_subsystem_start_time_ms_count

Время запуска служб индикатора в миллисекундах

grafana_instance_start_total

счетчик запущенных экземпляров

grafana_ldap_users_sync_execution_time

сводная информация для пользователей LDAP о продолжительности выполнения синхронизации

grafana_page_response_status_total

статус HTTP-ответа страницы

grafana_plugin_build_into

Метрика с постоянным значением «1», помеченная PluginID, PluginType и версией, на основе которой был создан плагин Indicator

grafana_plugin_request_duration_milliseconds

Длительность запроса плагина

grafana_plugin_request_duration_milliseconds_sum

Длительность запроса плагина

grafana_plugin_request_duration_milliseconds_count

Длительность запроса плагина

grafana_plugin_request_total

Общее количество запросов к плагинам

grafana_proxy_response_status_total

статус HTTP-ответа прокси-сервера

grafana_rendering_queue_size

размер очереди рендеринга изображений

grafana_stat_active_users

количество активных пользователей

grafana_stat_total_orgs

общее количество организаций

grafana_stat_total_playlists

общее количество плейлистов

grafana_stat_total_users

общее количество пользователей

grafana_stat_totals_active_admins

общее количество активных администраторов

grafana_stat_totals_active_editors

общее количество активных редакторов

grafana_stat_totals_active_viewers

общее количество активных пользователей viewers

grafana_stat_totals_admins

общее количество администраторов

grafana_stat_totals_annotations

общее количество аннотаций в базе данных

grafana_stat_totals_dashboard

общее количество информационных панелей

grafana_stat_totals_dashboard_versions

общее количество версий панели мониторинга в базе данных

grafana_stat_totals_data

общее количество определенных источников данных, помеченных идентификатором плагина

grafana_stat_totals_editors

общее количество пользователей редакторов

grafana_stat_totals_folder

общее количество папок

grafana_stat_totals_viewers

общее количество пользователей viewers

http_request_duration_milliseconds

краткое описание HTTP-запроса

http_request_duration_milliseconds_sum

краткое описание HTTP-запроса

http_request_duration_milliseconds_count

краткое описание HTTP-запроса

http_request_in_flight

Список запросов, которые в настоящее время обслуживаются INDA.

http_request_total

счетчик HTTP-запросов

loki_logql_querystats_duplicates_total

Общее количество дубликатов, обнаруженных при выполнении запросов LogQL.

loki_logql_querystats_ingester_sent_lines_total

Общее количество строк, отправленных получателями при выполнении запросов LogQL.

net_conntrack_dialer_conn_attempted_total

Общее количество попыток подключения с помощью данного абонента с заданным именем.

net_conntrack_dialer_conn_closed_total

Общее количество закрытых подключений, исходящих от абонента с заданным именем.

net_conntrack_dialer_conn_established_total

Общее количество соединений, успешно установленных данным абонентом с заданным именем.

net_conntrack_dialer_conn_failed_total

Общее количество
подключений, при которых не удалось набрать с помощью абонента заданное имя.

process_cpu_seconds_total

Общее время, затраченное пользователем и системным процессором в секундах.

process_max_fds

Максимальное количество открытых файловых дескрипторов.

process_open_fds

Количество открытых файловых дескрипторов.

process_resident_memory_bytes

Объем резидентной памяти в байтах.

process_start_time_seconds

Время начала процесса с эпохи unix в секундах.

process_virtual_memory_bytes

Объем виртуальной памяти в байтах.

process_virtual_memory_max_bytes

Максимальный объем доступной виртуальной памяти в байтах.

Метрики контроля интеграции с Secman#

Название метрики

Описание метрики

cortex_deprecated_flags_inuse_total

Количество установленных в данный момент устаревших флагов.

Метрики SECMAN#

Прикладные метрики интеграции pod Indicator с SECMAN для мониторинга и диагностики проблем.

Название метрики

Описание метрики

pvm_common_vault_get_property_by_name_second_count

Длительность получения property по имени из vault

pvm_common_vault_get_property_by_name_second_sum

Длительность получения property по имени из vault

pvm_common_vault_get_property_by_name_second_max

Длительность получения property по имени из vault

pvm_common_vault_get.property_by_name_failed_total

Количество ошибок получения property по имени из vault

pvm_common_vault_runtime_search_secrets_by_project_second_count

Количество измерений поиска runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_secrets_by_project_second_sum

Длительность поиска runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_secrets_by_project_second_max

Длительность поиска runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_secrets_by_project_failed_total

Количество ошибок поиска runtime-секретов в vault по проекту

pvm_common_vault_runtime_get_secret_by_key_second_count

Количество получений runtime-секрета из vault по ключу

pvm_common_vault_runtime_get_secret_by_key_second_sum

Длительность получения runtime-секрета из vault по ключу

pvm_common_vault_runtime_get_secret_by_key_second_max

Длительность получения runtime-секрета из vault по ключу

pvm_common_vault_runtime_get_secret_by_key_failed_total

Количество ошибок получения runtime-секрета из vault по ключу

pvm_common_vault_runtime_search_keys_by_project_second_count

Количество поиска ключей runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_keys_by_project_second_sum

Длительность поиска ключей runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_keys_by_project_second_max

Длительность поиска ключей runtime-секретов в vault по проекту

pvm_common_vault_runtime_search_keys_by_project_failed_total

Количество ошибок поиска ключей runtime-секретов в vault по проекту

pvm_common_vault_reload_secrets_second_count

Кол-во обновления (hot-reload) секретов

pvm_common_vault_reload_secrets_second_sum

Длительность обновления (hot-reload) секретов

pvm_common_vault_reload_secrets_second_max

Длительность обновления (hot-reload) секретов

pvm_common_vault_reload_secrets_failed_total

Количество ошибок обновления (hot-reload) секретов

pvm_common_certificates_reload_second_count

Кол-во обновления сертификатов (hot-reload)

pvm_common_certificates_reload_second_sum

Длительность обновления сертификатов (hot-reload)

pvm_common_certificates_reload_second_max

Длительность обновления сертификатов (hot-reload)

pvm_common_certificates_reload_failed_total

Количество ошибок обновления сертификатов (hot-reload)

pvm_common_vault_cache_items

Кол-во хранимых секретов в кеш в текущий момент

pvm_common_vault_reload_secrets_failed_total, pvm_common_certificates_reload_failed_total метрики в данный момент не формируется, т.к. не может возникнуть ошибок при обновлении.