События мониторинга#
Все компоненты Indicator публикуют метрики мониторинга в формате Prometheus, что позволяет настроить их сбор с использованием Объединенного мониторинга Unimon (MONA) в составе Platform V Monitor (OPM). Учет нагрузки в разрезе потребителей можно посмотреть через компонент Indicator, данные отображаются на дашборде Indicator metrics.
Дашборд Indicator metrics состоит из набора панелей:
Наименование панели / имя метрики |
Описание |
Тип панели |
|---|---|---|
Общая информация / |
Общая информация по запущенному приложению indicator, имя модуля контейнеризации, на котором работает приложение |
таблица |
Количество дашбордов / grafana_stat_totals_dashboard |
Информация о количестве дашбордов |
таблица |
Количество авторизованных пользователей / grafana_stat_total_users |
Информация о количестве пользователей |
таблица |
Количество активных пользователей / grafana_stat_active_users |
Информация о количестве активных пользователей |
таблица |
Время работы / process_start_time_seconds |
Время работы кластера с момента старта (в разрезе «labels.app») |
таблица |
HTTP запросы (общее количество) / |
Количество HTTP запросов отправленных приложением Indicator (HTTP request count в разрезе «labels.app») |
график |
HTTP запросы (общее количество в разрезе методов) / |
Количество HTTP запросов отправленных приложением Indicator (HTTP request count в разрезе «labels.app» и методов), |
график |
HTTP запросы (общее количество в разрезе ошибочных статусов ответа) / |
Количество HTTP запросов отправленных приложением Indicator с ошибками (HTTP request error count в разрезе «labels.app» и код состояния HTTP: 4xx, 5xx), |
график |
Суммарная задержка по запросам / http_request_duration_milliseconds_sum |
Суммарная длительность HTTP запроса в разрезе «labels.app» и методов |
график |
HTTP ответы (общее количество в разрезе статусов ответов) / grafana_page_response_status_total |
Количество HTTP запросов с ошибками |
график |
Количество вызовов API / grafana_api_admin_user_created_total,grafana_api_dashboard_snapshot_create_total,grafana_api_dashboard_snapshot_get_total,grafana_api_response_status_total |
Количестве запросов к приложению Indicator в разрезе «labels.app» и методов |
график |
Установка клиентской части компонента Объединенный мониторинг Unimon (MONA), входящего в состав продукта Platform V Monitor (OPM), описана в документации к сервису мониторинга («Руководство по установке», раздел «Автоматическая установка (опционально) компонентом Deploy tools»)
Метрики Unimon-sender#
Сервис Unimon (MONA) передает стандартные метрики мониторинга. Для сбора метрик используется компонент Объединенный мониторинг Unimon. В таблице представлены варианты метрик снимаемые модулем Unimon-sender по умолчанию.
Название метрики |
Описание метрики |
|---|---|
jvm_threads_states_threads |
Текущее количество потоков, имеющих статус |
jvm_classes_loaded_classes |
Количество классов, загруженных на данный момент в JVM |
process_cpu_usage |
Процент использования процессора за недавнее время процессом JVM |
jvm_memory_used_bytes |
Объем памяти, используемой JVM |
jvm_gc_max_data_size_bytes |
Максимальный размер пула памяти старого поколения |
system_cpu_usage |
Процент использования процессора за недавнее время всей системой |
process_uptime_seconds |
Время работы JVM |
hikaricp_connections_usage_seconds |
Время использования соединения |
hikaricp_connections_usage_seconds_max |
Максимальное время использования соединения |
hikaricp_connections_max |
Максимальное количество соединений |
tomcat_sessions_rejected_sessions_total |
Общее количество подключений Tomcat, которые не были приняты |
tomcat_sessions_active_max_sessions |
Максимальное количество подключений Tomcat, с момента старта JVM, либо с момента последнего сброса значения данной метрики |
hikaricp_connections_active |
Активные соединения |
process_files_open_files |
Количество открытых файловых дескрипторов |
hikaricp_connections |
Общее количество соединений |
hikaricp_connections_timeout_total |
Общее количество тайм-аутов подключения |
hikaricp_connections_min |
Минимальное количество соединений |
jvm_gc_pause_seconds |
Время ГБ в паузе в секундах |
jvm_gc_pause_seconds_max |
Максимальное время ГБ в паузе в секундах |
process_start_time_seconds |
Время начала процесса, в секундах, по систему UNIX Epoch |
jvm_threads_peak_threads |
Максимальное количество активных потоков, зарегистрированное с момента запуска JVM или с момента последнего сброса данного значения |
system_cpu_count |
Количество процессоров, доступных виртуальной машине Java |
jvm_memory_committed_bytes |
Объем памяти в байтах, выделенный для использования виртуальной машиной Java |
jvm_threads_states_threads |
Текущее количество потоков, имеющих статус |
jdbc_connections_max |
Максимальное количество активных подключений, которые могут быть выделены одновременно |
jvm_buffer_count_buffers |
Примерное количество буферов в пуле памяти JVM |
jdbc_connections_idle |
Количество установленных, но неработающих соединений |
hikaricp_connections_acquire_seconds |
Время установления соединения |
hikaricp_connections_acquire_seconds_max |
Максимальное время установления соединения |
hikaricp_connections_pending |
Рассмотрение |
jvm_threads_live_threads |
Текущее количество активных потоков, включая демон-потоки |
jvm_gc_live_data_size_bytes |
Размер пула долговременных объектов (old generation) после полного цикла работы сборщика мусора (garbage collector), в байтах |
jvm_threads_daemon_threads |
Текущее количество активных демон-потоков |
jvm_classes_unloaded_classes_total |
Количество выгруженных классов JVM |
process_files_max_files |
Максимальное количество дескрипторов файлов |
tomcat_sessions_active_current_sessions |
Количество подключений Tomcat, активных на данный момент |
jvm_gc_memory_allocated_bytes_total |
Общее количество увеличений пула памяти в пуле «быстрых» ( |
hikaricp_connections_idle |
Неработающие соединения |
tomcat_sessions_expired_sessions_total |
Общее количество закончившихся по таймауту подключений Tomcat |
tomcat_sessions_alive_max_seconds |
Максимальная продолжительность жизни подключения Tomcat, в секундах |
jvm_buffer_total_capacity_bytes |
Общий объем памяти, доступной для буфера JVM, в байтах |
jvm_memory_max_bytes |
Максимальный объем памяти, который может быть использован для управления памятью, в байтах |
jdbc_connections_active |
Текущее количество активных подключений, выделенных из источника данных |
http_server_requests_seconds |
Длительность HTTP-запроса в секундах |
http_server_requests_seconds_max |
Длительность HTTP-запроса в секундах, максимальная |
system_load_average_1m |
Средняя нагрузка системы на процессоры за 1 мин |
jvm_buffer_memory_used_bytes |
Объем занятой памяти буфером JVM, в байтах |
jdbc_connections_min |
Minimum number of idle connections in the pool |
tomcat_sessions_created_sessions_total |
Общее количество созданных подключений Tomcat |
jvm_gc_memory_promoted_bytes_total |
Общее количество увеличений пула памяти в пуле долговременных ( |
logback_events_total |
Количество событий уровня ошибок, которые попали в журналы |
hikaricp_connections_creation_seconds_max |
Максимальное время создания соединения |
hikaricp_connections_creation_seconds |
Время создания соединения в секундах |
Данные метрики можно увидеть на общих дашбордах JVM (Micrometer) и Статистика Spring Boot.
Метрики Indicator#
Прикладные метрики pod Indicator для мониторинга и диагностики проблем.
Название метрики |
Описание метрики |
|---|---|
cortex_deprecated_flags_inuse_total |
Количество установленных в данный момент устаревших флагов. |
cortex_experimental_features_in_use_total |
Количество используемых экспериментальных функций. |
go_gc_duration_seconds |
Сводная информация о продолжительности паузы в циклах сборки мусора. |
go_gc_duration_seconds |
Сводная информация о продолжительности паузы в циклах сборки мусора. |
go_goroutines |
Количество существующих в настоящее время goroutines. |
go_info |
Содержит информацию о среде Go. |
go_memstats_alloc_bytes |
Количество выделенных и все еще используемых байт |
go_memstats_alloc_bytes_total |
Общее количество выделенных байт, даже если они освобождены. |
go_memstats_buck_hash_sys_bytes |
Количество байт, используемых хeш-таблицей корзины профилирования. |
go_memstats_frees_total |
Общее количество освобождений. |
go_memstats_gc_cpu_fraction |
Доля доступного процессорного времени этой программы, используемая GC с момента запуска программы. |
go_memstats_gc_sys_bytes |
Количество байт, используемых для метаданных системы сбора мусора. |
go_memstats_heap_idle_bytes |
Количество байтов кучи, ожидающих использования. |
go_memstats_heap_inuse_bytes |
Количество используемых байтов кучи. |
go_memstats_heap_objects |
Количество выделенных объектов. |
go_memstats_heap_released_bytes |
Количество байтов кучи, освобожденных для операционной системы. |
go_memstats_heap_sys_bytes |
Количество байт кучи, полученных из системы. |
go_memstats_last_gc_time_seconds |
Количество секунд, прошедших с последнего цикла GC. |
go_memstats_lookups_total |
Общее количество поисков по указателю. |
go_memstats_mallocs_total |
Общее количество mallocs |
go_memstats_mcache_inuse_bytes |
Количество байт, используемых структурами кеша. |
go_memstats_mcache_sys_bytes |
Количество байт, используемых для структур кеша, полученных из системы. |
go_memstats_mspan_inuse_bytes |
Количество байт, используемых структурами спан. |
go_memstats_mspan_sys_bytes |
Количество байт, используемых для структур спан, полученных из системы. |
go_memstats_next_gc_bytes |
Количество байт кучи при следующей сборке мусора. |
go_memstats_other_sys_bytes |
Количество байт, используемых для других системных распределений. |
go_memstats_stack_inuse_bytes |
Количество байт, используемых распределителем стека |
go_memstats_stack_sys_bytes |
Количество байт, полученных из системы для распределителя стека. |
go_memstats_sys_bytes |
Количество байт, полученных из системы. |
go_threads |
Определяет количество созданных потоков операционной системы. |
grafana_alerting_active_alerts |
Количество активных alerts |
grafana_alerting_execution_time_milliseconds |
О продолжительности выполнения предупреждения |
grafana_alerting_result_total |
счетчик результатов выполнения предупреждения |
grafana_api_admin_user_created_total |
счетчик, созданный пользователем |
grafana_api_dashboard_get_milliseconds |
Сводная по продолжительности получения панели мониторинга |
grafana_api_dashboard_save_milliseconds |
Сводная по продолжительности сохранения панели мониторинга |
grafana_api_dashboard_search_milliseconds |
Сводная по продолжительности поиска на панели мониторинга |
grafana_api_dashboard_snapshot_create_total |
Количество созданных снимков панели мониторинга |
grafana_api_dashboard_snapshot_external_total создано снимков внешней панели мониторинга |
Количество созданных снимков внешней панели мониторинга |
grafana_api_dashboard_snapshot_get_total |
Загруженные информационные панели |
grafana_api_dataproxy_request_all_milliseconds |
Информация о продолжительности запроса прокси-сервера данных |
grafana_api_login_oauth_total |
Счетчик oauth входа в систему API |
grafana_api_login_post_total |
Счетчик записей входа в систему API |
grafana_api_login_saml_total |
счетчик saml для входа в API |
grafana_api_models_dashboard_insert_total |
вставленные информационные панели |
grafana_api_org_create_total |
Счетчик созданных организаций API |
grafana_api_response_status_total |
статус HTTP-ответа API |
grafana_api_user_signup_started_total |
количество пользователей, которые начали процесс регистрации |
grafana_aws_cloudwatch_get_metric_data_total |
Счетчик для получения временных рядов метрических данных из aws |
grafana_aws_cloudwatch_get_metric_statistics_total |
Счетчик справок для получения статистики показателей от aws |
grafana_aws_cloudwatch_list_metrics_total |
Счетчик для получения списка показателей из aws |
grafana_build_into |
Показатель с постоянным значением, помеченный версией, ревизией, ответвлением и версией go, на основе которой была создана система |
grafana_datasource_request_duration_seconds |
Сводка исходящих запросов к источнику данных, отправленных из Indicator |
grafana_datasource_request_duration_seconds_sum |
Сводка исходящих запросов к источнику данных, отправленных из Indicator |
grafana_datasource_request_duration_seconds_count |
Сводка исходящих запросов к источнику данных, отправленных из Indicator |
grafana_datasource_request_in_flight |
Индикатор исходящих запросов к источникам данных, отправляемых Indicator в настоящее время |
grafana_datasource_request_total |
Счетчик исходящих запросов к источнику данных. |
grafana_datasource_response_size_bytes |
Сводная информация о размерах ответов источника данных, возвращенных в Indicator |
grafana_datasource_response_size_bytes_sum |
Сводная информация о размерах ответов источника данных, возвращенных в Indicator |
grafana_datasource_response_size_bytes_count |
Сводная информация о размерах ответов источника данных, возвращенных в Indicator |
grafana_db_datasource_query_by_id_total |
Счетчик для получения источника данных по идентификатору |
grafana_emails_sent_failed |
Количество электронных писем, которые Indicator не удалось отправить |
grafana_emails_sent_total |
Количество электронных писем, отправленных Indicator |
grafana_frontend_boot_first_paint_time_seconds |
Первая краска для загрузки интерфейса |
grafana_frontend_boot_js_done_time_seconds |
Начальная загрузка js при загрузке интерфейса |
grafana_frontend_boot_load_time_seconds |
Измерение времени загрузки интерфейса |
grafana_indicator_audit_event_size |
размер события аудита |
grafana_indicator_audit_event_size |
размер отправленного события |
grafana_indicator_audit_event_size_sum |
сумма всех отправленных событий |
grafana_indicator_audit_event_size_count |
кол-во отправленных событий |
grafana_indicator_audit_write_event_time_millisecond |
время отправки события |
grafana_indicator_audit_write_event_time_millisecond_sum |
суммарное время отправленных событий |
grafana_indicator_audit_write_event_time_millisecond_count |
кол-во отправленных событий |
grafana_indicator_audit_write_event_failed |
кол-во отправленных событий с ошибками |
grafana_indicator_audit_write_metamodel_time_millisecond |
время отправки метамодели |
grafana_indicator_audit_write_metamodel_size |
размер отправленной метамодели |
grafana_indicator_audit_write_event_failed |
количество неудачных событий аудита |
grafana_indicator_audit_write_event_time_millisecond |
время события записи аудита в миллисекундах |
grafana_indicator_audit_write_metamodel_size |
размер метамодели регистра аудита |
grafana_indicator_audit_write_metamodel_time_millisecond |
время регистрации метамодели аудита в миллисекундах |
grafana_indicator_closed_db_connections_total |
Общее количество закрытых соединений за все время |
grafana_indicator_datasource_all_error_cont |
счетчик вызовов источника данных с любой ошибкой по orgid, user, datasource_id |
grafana_indicator_datasource_datastorage_error_cont |
счетчик вызовов источника данных с любой ошибкой по orgid, user, datasource_id |
grafana_indicator_datasource_query_cnt |
счетчик вызовов источника данных по orgid, user, datasource_id |
grafana_indicator_datasource_response_size |
размер ответа источника данных по orgid, user, datasource_id |
grafana_indicator_datasource_response_size_sum |
размер ответа источника данных по orgid, user, datasource_id |
grafana_indicator_datasource_response_size_count |
размер ответа источника данных по orgid, user, datasource_id |
grafana_indicator_datasource_response_time |
время отклика источника данных (миллисекунды) по orgid, user, datasource_id |
grafana_indicator_datasource_response_time_count |
время отклика источника данных (кол-во) |
grafana_indicator_datasource_response_time_sum |
время отклика источника данных (кол-во) |
grafana_indicator_max_opened_db_connections_per_period |
Количество открытых подключений за период зависит от параметра metrics_refresh_interval_seconds |
grafana_indicator_opened_db_connections_current |
текущее количество открытых подключений |
grafana_indicator_opened_db_connections_idle_current |
текущее количество неиспользуемых открытых подключений |
grafana_indicator_opened_db_connections_in_use_current |
текущее количество используемых открытых соединений |
grafana_indicator_opened_db_connections_total |
Общее количество открытых соединений за все время |
grafana_indicator_postgress_connection_info |
показывает текущую базу данных адресов подключений |
grafana_indicator_subsystem_start_time_ms |
Время запуска служб индикатора в миллисекундах |
grafana_indicator_subsystem_start_time_ms_sum |
Время запуска служб индикатора в миллисекундах |
grafana_indicator_subsystem_start_time_ms_count |
Время запуска служб индикатора в миллисекундах |
grafana_instance_start_total |
счетчик запущенных экземпляров |
grafana_ldap_users_sync_execution_time |
сводная информация для пользователей LDAP о продолжительности выполнения синхронизации |
grafana_page_response_status_total |
статус HTTP-ответа страницы |
grafana_plugin_build_into |
Метрика с постоянным значением «1», помеченная PluginID, PluginType и версией, на основе которой был создан плагин Indicator |
grafana_plugin_request_duration_milliseconds |
Длительность запроса плагина |
grafana_plugin_request_duration_milliseconds_sum |
Длительность запроса плагина |
grafana_plugin_request_duration_milliseconds_count |
Длительность запроса плагина |
grafana_plugin_request_total |
Общее количество запросов к плагинам |
grafana_proxy_response_status_total |
статус HTTP-ответа прокси-сервера |
grafana_rendering_queue_size |
размер очереди рендеринга изображений |
grafana_stat_active_users |
количество активных пользователей |
grafana_stat_total_orgs |
общее количество организаций |
grafana_stat_total_playlists |
общее количество плейлистов |
grafana_stat_total_users |
общее количество пользователей |
grafana_stat_totals_active_admins |
общее количество активных администраторов |
grafana_stat_totals_active_editors |
общее количество активных редакторов |
grafana_stat_totals_active_viewers |
общее количество активных пользователей viewers |
grafana_stat_totals_admins |
общее количество администраторов |
grafana_stat_totals_annotations |
общее количество аннотаций в базе данных |
grafana_stat_totals_dashboard |
общее количество информационных панелей |
grafana_stat_totals_dashboard_versions |
общее количество версий панели мониторинга в базе данных |
grafana_stat_totals_data |
общее количество определенных источников данных, помеченных идентификатором плагина |
grafana_stat_totals_editors |
общее количество пользователей редакторов |
grafana_stat_totals_folder |
общее количество папок |
grafana_stat_totals_viewers |
общее количество пользователей viewers |
http_request_duration_milliseconds |
краткое описание HTTP-запроса |
http_request_duration_milliseconds_sum |
краткое описание HTTP-запроса |
http_request_duration_milliseconds_count |
краткое описание HTTP-запроса |
http_request_in_flight |
Список запросов, которые в настоящее время обслуживаются INDA. |
http_request_total |
счетчик HTTP-запросов |
loki_logql_querystats_duplicates_total |
Общее количество дубликатов, обнаруженных при выполнении запросов LogQL. |
loki_logql_querystats_ingester_sent_lines_total |
Общее количество строк, отправленных получателями при выполнении запросов LogQL. |
net_conntrack_dialer_conn_attempted_total |
Общее количество попыток подключения с помощью данного абонента с заданным именем. |
net_conntrack_dialer_conn_closed_total |
Общее количество закрытых подключений, исходящих от абонента с заданным именем. |
net_conntrack_dialer_conn_established_total |
Общее количество соединений, успешно установленных данным абонентом с заданным именем. |
net_conntrack_dialer_conn_failed_total |
Общее количество |
process_cpu_seconds_total |
Общее время, затраченное пользователем и системным процессором в секундах. |
process_max_fds |
Максимальное количество открытых файловых дескрипторов. |
process_open_fds |
Количество открытых файловых дескрипторов. |
process_resident_memory_bytes |
Объем резидентной памяти в байтах. |
process_start_time_seconds |
Время начала процесса с эпохи unix в секундах. |
process_virtual_memory_bytes |
Объем виртуальной памяти в байтах. |
process_virtual_memory_max_bytes |
Максимальный объем доступной виртуальной памяти в байтах. |
Метрики контроля интеграции с Secman#
Название метрики |
Описание метрики |
|---|---|
cortex_deprecated_flags_inuse_total |
Количество установленных в данный момент устаревших флагов. |
Метрики SECMAN#
Прикладные метрики интеграции pod Indicator с SECMAN для мониторинга и диагностики проблем.
Название метрики |
Описание метрики |
|---|---|
pvm_common_vault_get_property_by_name_second_count |
Длительность получения property по имени из vault |
pvm_common_vault_get_property_by_name_second_sum |
Длительность получения property по имени из vault |
pvm_common_vault_get_property_by_name_second_max |
Длительность получения property по имени из vault |
pvm_common_vault_get.property_by_name_failed_total |
Количество ошибок получения property по имени из vault |
pvm_common_vault_runtime_search_secrets_by_project_second_count |
Количество измерений поиска runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_secrets_by_project_second_sum |
Длительность поиска runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_secrets_by_project_second_max |
Длительность поиска runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_secrets_by_project_failed_total |
Количество ошибок поиска runtime-секретов в vault по проекту |
pvm_common_vault_runtime_get_secret_by_key_second_count |
Количество получений runtime-секрета из vault по ключу |
pvm_common_vault_runtime_get_secret_by_key_second_sum |
Длительность получения runtime-секрета из vault по ключу |
pvm_common_vault_runtime_get_secret_by_key_second_max |
Длительность получения runtime-секрета из vault по ключу |
pvm_common_vault_runtime_get_secret_by_key_failed_total |
Количество ошибок получения runtime-секрета из vault по ключу |
pvm_common_vault_runtime_search_keys_by_project_second_count |
Количество поиска ключей runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_keys_by_project_second_sum |
Длительность поиска ключей runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_keys_by_project_second_max |
Длительность поиска ключей runtime-секретов в vault по проекту |
pvm_common_vault_runtime_search_keys_by_project_failed_total |
Количество ошибок поиска ключей runtime-секретов в vault по проекту |
pvm_common_vault_reload_secrets_second_count |
Кол-во обновления (hot-reload) секретов |
pvm_common_vault_reload_secrets_second_sum |
Длительность обновления (hot-reload) секретов |
pvm_common_vault_reload_secrets_second_max |
Длительность обновления (hot-reload) секретов |
pvm_common_vault_reload_secrets_failed_total |
Количество ошибок обновления (hot-reload) секретов |
pvm_common_certificates_reload_second_count |
Кол-во обновления сертификатов (hot-reload) |
pvm_common_certificates_reload_second_sum |
Длительность обновления сертификатов (hot-reload) |
pvm_common_certificates_reload_second_max |
Длительность обновления сертификатов (hot-reload) |
pvm_common_certificates_reload_failed_total |
Количество ошибок обновления сертификатов (hot-reload) |
pvm_common_vault_cache_items |
Кол-во хранимых секретов в кеш в текущий момент |
pvm_common_vault_reload_secrets_failed_total, pvm_common_certificates_reload_failed_total метрики в данный момент не формируется, т.к. не может возникнуть ошибок при обновлении.