Мониторинг#

Все сервисы Kintsugi (DBCM) публикуют прикладные метрики в формате Prometheus.

Для описания системных метрик используется их конечное представление в среде визуализации Grafana. Шаблоны конфигурации панелей мониторинга Grafana описаны в пункте «Системный мониторинг» раздела «Настройка интеграции» в «Руководстве по установке».

Для сбора и хранения информации о системных метриках используется система мониторинга Platform V Monitor (OPM): Объединенный мониторинг Unimon (MONA).

Настройка#

Platform V Kintsugi (DBM) редакции Enterprise не имеет собственные встроенные средства мониторинга.

Метрики#

Прикладные метрики сервиса backend#

Название

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

Прикладные метрики сервиса collector#

Название

Описание

cache_query_samples_histo

Гистограмма длительности запросов к кеш

failures_to_upload_counter

Количество попыток выгрузки метрик в хранилище, завершившихся ошибкой

metrics_backlog_count

Количество метрик в ожидании обработки

metrics_error_rate

Коэффициент ошибок при обработке метрик

metrics_processing_time_avg

Среднее время обработки метрик

metrics_received_timestamp

Временная метка получения метрик

metrics_upload_time_avg

Среднее время загрузки метрик

scrapers_in_action

Количество скреперов, собирающих метрики из соединений с БД

single_query_executed_successfully_counter

Количество выполнения запросов на снятие метрик, завершившихся успешно

single_query_executed_unsuccessfully_counter

Количество выполнения запросов на снятие метрик, завершившихся ошибкой

sqlite_cache_bytesize

Размер кеш SQLite

successful_uploads_counter

Количество попыток выгрузки метрик в хранилище, завершившихся успешно

total_number_failed_uploaded_bytes

Общее количество байтов, которые не были загружены

total_number_prepared_metrics_failed_for_uploading_counter

Общее количество подготовленных, но не загруженных метрик

total_number_prepared_metrics_for_uploading_counter

Общее количество подготовленных метрик для загрузки

total_number_successful_uploaded_bytes

Общее количество успешно загруженных байтов

unique_metrics_processed_counter

Количество уникальных метрик обработанных за период

update_export_config_durations_histogram_bucket

Распределение длительности обновления конфигурации наблюдаемых БД

update_export_config_fail_counter

Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД

update_export_config_success_counter

Количество успешно завершенных обновлений конфигурации наблюдаемых БД

upload_duration_histogram_bucket

Длительность процедур сбрасывания метрик в хранилище метрик

worker_process_sample_histo

Гистограмма длительности обработки выборки

worker_samples_aggregated_counter

Количество агрегированных выборок

Прикладные метрики сервиса curator#

Название

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

http_request_duration_seconds_bucket` (templates)

Распределение длительности выполнения запросов к интерфейсу templates

http_request_duration_seconds_bucket` (cluster)

Распределение длительности выполнения запросов к интерфейсу cluster

Прикладные метрики сервиса dbperf#

Подсистема collector#

Название

Тип

Лейблы

Описание

request_processing_time_histogram

histogram

По эндпоинтам

Длительность обработки запроса (с момента поступления запроса до возвращения ответа)

response_codes_histogram

histogram

По эндпоинтам

Коды ответов

total_endpoint_calls

counter

По эндпоинтам

Количество обращений к эндпоинту

total_failed_performance_insight_requests

counter

Общее количество завершенных с ошибкой запросов на получение данных о производительности

total_performance_insight_response_by_timeout

counter

Общее количество завершенных по таймауту запросов на получение данных о производительности

total_successful_performance_insight_requests

counter

Общее количество успешно выполненных запросов на получение данных о производительности

total_validation_failed_performance_insight_requests

counter

Общее количество запросов на получение данных о производительности, не прошедших валидацию тела запроса

Подсистема controller#

Название

Тип

Лейблы

Описание

database_maintenance_duration_histogram

histogram

По типу внутреннего хранилища («inmemory-db»)

Распределение длительности технического обслуживания внутреннего хранилища данных

performance_insight_database_execution_duration_histogram

histogram

По типу внутреннего хранилища («inmemory-db»)

Распределение длительности получения данных о производительности из внутреннего хранилища

storage_data_reading_time_histogram

histogram

По типу внутреннего хранилища («inmemory-db»)

Время, затраченное на чтение данных из внутреннего хранилища

asset_connection_attempts_counter

counter

По asset

Количество попыток подключения к asset

metrics_gathering_time_histogram

histogram

По asset

Время, затраченное на выполнение запроса по сбору метрик с asset

polling_period_deviation_histogram

histogram

По asset

Отклонение времени опроса asset

samples_queue_total_size_histogram

histogram

По asset

Количество всех выборок asset, находящихся в очереди на слияние

samples_queue_merged_size_histogram

histogram

По asset

Количество всех выборок asset из очереди, успевших попасть в хранилище за время слияния

samples_queue_skipped_size_histogram

histogram

По asset

Количество всех выборок asset из очереди, не успевших попасть в хранилище за время слияния

scraper_current_connection_status_gauge

gauge

По asset

Текущий статус подключения к asset (1 = connected, 0 = disconnected)

scrapper_in_use_storage_size_bytes

gauge

По asset

Количество потребляемой памяти текущим asset

storage_size_limit_bytes

gauge

По asset

Количественное ограничение потребления памяти для asset

ki_pi_storage_stat_gauge

gauge

По asset, по метрикам хранилища (ki_pi*)

Метрики внутреннего хранилища

custom_config_parameter

gauge

По asset, по индивидуальным параметрам хранения

Значение параметра хранения для конкретного asset

collect_sample_pg_stat_activity_durations_histogram

histogram

Распределение длительности получения данных из таблицы pg_stat_activity

merge_sample_common_durations_gauge

gauge

Текущий уровень общего затраченного времени на запись данных во внутреннее хранилище

merge_sample_counter

counter

Количество попыток записи данных во внутреннее хранилище

merge_sample_pg_stat_activity_durations_histogram

histogram

Распределение длительности записи данных pg_stat_activity во внутреннее хранилище

total_created_scrapers_counter

counter

Общее количество созданных объектов сбора данных из pg_stat_activity

total_deleted_scrapers_counter

counter

Общее количество удаленных объектов сбора данных из pg_stat_activity

total_merge_sample_failed

counter

Общее количество неуспешных попыток записи данных во внутреннее хранилище

total_merge_sample_quota_limited

counter

Общее количество неуспешных попыток записи данных во внутреннее хранилище по причине превышения квоты

total_merge_sample_successful

counter

Общее количество успешных попыток записи данных во внутреннее хранилище

total_scrapers_db_connected_counter

counter

Общее количество успешных установок соединения с объектами мониторинга

total_scrapers_db_disconnected_counter

counter

Общее количество разрыва соединений с объектами мониторинга

total_scrapers_db_instance_updated_counter

counter

Общее количество обновлений конфигураций объектов мониторинга

Подсистема coordinator#

Название

Тип

Лейблы

Описание

update_export_config_durations_histogram

histogram

Распределение длительности обновления экспортной конфигурации

update_export_config_fail_counter

counter

Общее количество успешных обновлений конфигурации

update_export_config_success_counter

counter

Общее количество неудачных обновлений конфигурации

Подсистема limiter#

Название

Тип

Лейблы

Описание

concurrent_assets_limit

gauge

Максимально возможное количество одновременно взятых в работу asset текущим dbperf

concurrent_assets_gauge

gauge

Текущее количество одновременно взятых в работу asset текущим dbperf

failed_asset_acquisition_counter

counter

Общее количество неуспешных попыток взятия asset в работу текущим dbperf

free_assets_slots_gauge

gauge

Количество свободных слотов для взятия в работу asset текущим dbperf

total_created_concurrent_asset_counter

counter

Общее количество взятых в работу asset текущим dbperf

total_removed_concurrent_asset_counter

counter

Общее количество освобожденных asset текущим dbperf

total_released_asset_storage_size_bytes

counter

Общий освобожденный объем хранилищ в байтах

total_reserved_asset_storage_size_bytes

counter

Общий используемый объем хранилища в байтах

released_asset_storage_size_bytes

gauge

Текущий освобожденный объем хранилища в байтах

reserved_asset_storage_size_bytes

gauge

Текущий используемый объем хранилища в байтах

storage_size_bytes_required_by_failed_assets_counter

counter

Требуемый объем хранилища в байтах для взятия asset в работу текущим dbperf

Подсистема repository#

Название

Тип

Лейблы

Описание

total_failed_acquire_advisory_lock_counter

counter

Общее количество неудачных попыток наложения рекомендательной блокировки в postgres

total_failed_release_advisory_lock_counter

counter

Общее количество неудачных попыток снятия рекомендательной блокировки в postgres

total_failed_sent_notifications_counter

counter

Общее количество неудачных попыток отправки нотификации

total_successful_acquire_advisory_lock_counter

counter

Общее количество успешных попыток наложения рекомендательной блокировки в postgres

total_successful_release_advisory_lock_counter

counter

Общее количество успешных попыток снятия рекомендательной блокировки в postgres

total_successful_sent_notifications_counter

counter

Общее количество успешных попыток отправки нотификации

Прикладные метрики сервиса kmetrics#

Название

Описание

websockets_in_flight

Количество открытых WebSocket-соединений для запросов метрик на данный момент

websockets_requests_received

Общее количество полученных валидных запросов по WebSocket-соединениям

websockets_responses_sent

Общее количество отправленных ответов по WebSocket-соединениям

websockets_bytes_received

Общее количество байт, полученных через WebSocket-соединения

websockets_bytes_sent

Общее количество байт, отправленных через WebSocket-соединения

sources_opened

Общее количество открытых источников для сбора метрик

promql_query_success

Успешно выполненные запросы promql

promql_query_failure

Неудавшиеся запросы promql

promql_query_duration

Продолжительность выполнения запросов promql

Прикладные метрики сервиса piface#

Название

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

Прикладные метрики сервиса tsdbmon#

Название

Подсистема

Описание

http_request_duration_ms

api

Продолжительность HTTP-запроса в миллисекундах

requests_total

query

Количество запросов на обслуживание

duration_seconds

query

Время, необходимое для ответа на query/ query_batch

requests_total

ingest

Общее количество запросов ingestor

duration_seconds

ingest

Время затрачено (обработка + вставка в БД) на запись выборки

items_received

ingest

Количество полученных образцов

active_write_requests

ingest

Количество активных процессов записи на данный момент

duplicates_total

ingest

Общее количество обработанных выборок / запросов на запись / метрик, с дубликатами

decompress_calls_total

ingest

Общее количество вызовов decompress_chunks_after

decompress_min_unix_time

ingest

Самое раннее время декомпрессии в UNIX-формате

max_sent_timestamp_milliseconds

ingest

Максимальная метка времени для выборок, которые сервис отправляет в БД

channel_cap

ingest

Емкость канала ingest

channel_len

ingest

Длина канала ingest

flush_series

ingest

Количество серий обработанных ingestor

inserted_total

ingest

Общее количество выборок, вставленных в БД

inserts_per_batch

ingest

Количество операций вставок в одной транзакции

rows_per_batch

ingest

Количество строк в одной транзакции

rows_per_insert

ingest

Количество строк, вставленных в один оператор вставки

insert_duration_seconds

ingest

Продолжительность вызовов вставки выборок в БД

items_total

ingest

Общее количество вставленных выборок

active_connections

sql_database

Количество соединений, в настоящее время получаемых из пула-соединений

total_connections

sql_database

Общее количество соединений с БД

requests_total

database

Общее количество запросов к БД

request_errors_total

database

Общее количество ошибок на запросы к БД

requests_duration_seconds

database

Время необходимое для получения данных по запросу и обработки ответа

Прикладные метрики сервиса mcwatch#

Название

Описание

upload_data_to_upstream_duration_sec_histogram

Гистограмма длительности записанных BAT-файлов в tsdb

total_time_series_upload_successful_counter

Общее количество успешных выгруженных данных временных рядов

total_time_series_upload_failed_counter

Общее количество неуспешных выгрузок данных временных рядов

total_time_series_batch_received_counter

Общее количество полученных BAT-файлов временных рядов

total_time_series_value_enqueue_for_cmp_successful_counter

Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для сравнения

total_time_series_value_enqueue_for_cmp_failed_counter

Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для сравнения

total_number_waiting_process_complete_counter

Общее количество ожиданий завершения процесса

total_input_ts_data_counter

Общее количество входных выборок данных временных рядов

total_internal_ts_data_reply_failed

Общее количество неудачных внутренних ответов на полученные временные ряды

total_number_running_process_ts_data

Общее количество запущенных процессов обработки запросов

total_input_ts_data_process_successful

Общее количество запросов с успешной обработкой

total_input_ts_data_process_failed

Общее количество запросов с неуспешной обработкой

time_series_data_processing_duration_histogram

Общая продолжительность обработки данных временных рядов

check_appeared_intervals_duration_sec_histogram

Гистограмма проверки длительности в секундах появившихся интервалов

total_number_check_appeared_intervals_successful

Общее количество успешных запросов на получение интервалов пересечений порога

total_number_check_appeared_intervals_failed

Общее количество неуспешных запросов на получение интервалов пересечений порога

read_metrics_threshold_duration_sec_histogram

Гистограмма запросов на чтение значений порогов в секундах

total_ping_database_connection_successful_counter

Общее количество успешных запросов на соединение с БД

total_ping_database_connection_failed_counter

Общее количество неуспешных запросов на соединение с БД

total_refresh_database_connection_counter

Общее количество запросов на переподключение к БД

total_missing_required_labels_counter

Общее количество элементов с недостающими метками

total_number_read_metric_thresholds_started

Общее количество запросов на получение значений порогов

total_number_read_metric_thresholds_failed

Общее количество неуспешных запросов на получение значений порогов

total_number_read_metric_thresholds_success

Общее количество успешных запросов на получение значений порогов

total_number_write_appeared_episode_failed

Общее количество неуспешной записи рассчитанного эпизода пересечения значения порога

total_number_write_appeared_episode_success

Общее количество успешной записи рассчитанного эпизода пересечения значения порога

total_number_write_appeared_episode_started

Общее количество попыток записи рассчитанного эпизода пересечения значения порога

total_time_series_received_counter

Общее количество полученных выборок

http_write_handler_duration_sec_histogram

Гистограмма длительности выполнения запроса на запись

total_time_series_batch_enqueue_for_upload_successful_counter

Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для выгрузки в tsdb

total_time_series_batch_enqueue_for_upload_failed_counter

Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для выгрузки tsdb

total_write_operation_successful_counter

Общее количество успешных операций сохранения

total_write_operation_failed_counter

Общее количество неуспешных операций сохранения

total_write_operation_counter

Общее количество операций сохранения

http_response_json_encode_successful_counter

Общее количество успешных кодировок ответа

http_response_json_encode_failed_counter

Общее количество неуспешных кодировок ответа

parse_operation_failed_counter

Общее количество неуспешных попыток парсинга операции

http_response_timeout_error_counter

Общее количество неуспешных запросов окончившихся по таймауту

transmit_time_series_success_counter

Общее количество успешно записанных выборок в tsdb

transmit_batch_success_counter

Общее количество успешно записанных BAT-файлов в tsdb

Прикладные метрики сервиса inform#

Имя метрики

Тип метрики

Описание

inform_poll_dispatcher_performance_waiting_asset_quantity

Gauge

Количество ОМ, ожидающих опроса

inform_poll_dispatcher_performance_polling_asset_quantity

Gauge

Количество опрашиваемых ОМ

inform_poll_dispatcher_performance_storage_asset_quantity

Gauge

Количество ОМ, ожидающих операции с хранилищем

inform_poll_dispatcher_general_stat_poll_in_time_count

Counter

Общее количество опросов вовремя

inform_poll_dispatcher_general_stat_poll_late_count

Counter

Общее количество опросов с опозданием

inform_poll_dispatcher_general_stat_poll_late_sec

Gauge

Общее опоздание опроса в секундах

inform_poll_dispatcher_general_stat_poll_period_sec

Gauge

Общий период опроса в секундах

inform_poll_dispatcher_general_stat_fact_plan_poll_period_diff_sec

Gauge

Общая разница в секундах между спланированных период опроса и фактическим периодом опроса

inform_poll_dispatcher_general_stat_fact_read_overview_metrics_sec

Gauge

Общее время сбора метрик с ОМ

inform_asset_id_poll_stat_poll_in_time_count

Counter

Количество опросов вовремя по каждому ОМ

inform_asset_id_poll_stat_poll_late_count

Counter

Количество опросов с опозданием по каждому ОМ

inform_asset_id_poll_stat_poll_late_sec

Gauge

Опоздание опроса в секундах по каждому ОМ

inform_asset_id_poll_stat_poll_period_sec

Gauge

Период опроса в секундах по каждому ОМ

inform_asset_id_poll_stat_fact_plan_poll_period_diff_sec

Gauge

Разница в секундах между спланированных период опроса и фактическим периодом опроса по каждому ОМ

inform_asset_id_poll_stat_fact_read_overview_metrics_sec

Gauge

Время сбора метрик с ОМ по каждому ОМ

Прикладные метрики сервиса audit proxy#

Название

Описание

model_already_relayed_counter

Количество ненужных регистраций метамодели аудита (метамодель была зарегистрирована ранее)

model_relayed_success_counter

Количество регистраций метамодели аудита, завершившихся успешно

model_relay_failed_counter

Количество регистраций метамодели аудита, завершившихся ошибкой

Прикладные метрики сервиса dbterm#

Название

Описание

database_connections_gauge

Количество объектов обработки активных соединений к контролируемым БД

http_request_counter

Количество полученных HTTP-запросов

protocol_handlers_gauge

Количество обработки активных сессий

total_database_broken_connection_counter

Количество разорванных соединений к контролируемым БД

total_database_established_connection_counter

Количество успешных подключений к контролируемым БД

total_failed_protocol_handshake_counter

Количество неустановленных соединений, у которых ошибка произошла на этапе «рукопожатия»

total_successful_protocol_handshake_counter

Количество установленных соединений на этапе «рукопожатия»

total_ws_session_abnormal_closed_counter

Количество завершенных нештатным образом сессий WebSocket

total_ws_session_closed_counter

Количество планово завершенных сессий WebSocket

total_ws_session_deadline_exceed_counter

Количество завершенных сессий, восстановленных не по инициативе клиента

total_ws_session_restore_failed_counter

Количество невосстановленных сессий

total_ws_session_restore_success_counter

Количество успешно восстановленных сессий

total_ws_terminated_counter

Количество завершенных сессий

transport_completed_connections_counter

Количество обработчиков, завершивших работу транспортного уровня

transport_running_connections_counter

Количество активных обработчиков транспортного уровня

ws_connection_accepted_counter

Количество принятых WebSocket-соединений

ws_connection_rejected_counter

Количество отклоненных WebSocket-соединений

ws_connection_unaccepted_counter

Количество непринятых WebSocket-соединений в следствии ошибки

Прикладные метрики сервиса AgentWay#

Название

Тип

Описание

agent_sessions_in_progress_gauge

gauge

Количество установленных соединений от агента в настоящий момент времени

total_number_accepted_agent_sessions

counter

Количество принятых соединений от агента

total_number_declined_agent_sessions

counter

Количество отклоненных соединений от агента

total_number_released_agent_sessions

counter

Количество завершенных соединений с агентом

total_number_handshake_failed

counter

Количество неуспешно установленных соединений на этапе handshake

total_number_handshake_successful

counter

Количество успешно установленных соединений на этапе handshake

total_number_measurement_reports_received

counter

Количество принятых сообщений с информацией о выборках (CPU,memory)

total_number_scanner_reports_received

counter

Количество принятых сообщений с информацией об обнаруженных СУБД агентом

producer_raw_samples_received

counter

Количество принятых выборок для создания метрик в системе

total_number_metrics_created

counter

Количество созданных метрик из выборок

total_number_metrics_passed_to_uploader

counter

Количество переданных метрик для выгрузки в систему

number_detected_dbms_objects_gauge

gauge

Количество известных и зарегистрированных СУБД в системе

total_number_failed_updated_dbms_objects

counter

Количество неудачных попыток обновления информации об СУБД

total_number_successful_updated_dbms_objects

counter

Количество удачных попыток обновления информации об СУБД

total_number_successful_cleanup_storage_operations

counter

Количество успешных попыток очистки данных об обнаруженных СУБД

total_number_received_bytes_from_asset_source

counter

Количество полученных байт из сервиса-владельца информации об assets

total_number_update_metadata_failed

counter

Количество неуспешных попыток получения meta информации

total_number_update_metadata_successful

counter

Количество успешных попыток получения meta информации

total_number_successful_uploaded_bytes

counter

Количество успешно выгруженных байт из сервиса в систему метрик

total_number_failed_uploaded_bytes

counter

Количество неуспешно выгруженных байт из сервиса в систему метрик

assets_metadata_update_time_duration_histo_bucket

histo

Гистограмма распределения длительности получения метаданных из сервиса curator

failures_to_upload_counter

counter

Количество неуспешных попыток записи метрик в систему

successful_uploads_counter

counter

Количество успешных попыток записи метрик в систему

number_acquired_advisory_locks

gauge

Количество успешно захваченных рекомендательных блокировок для агентской сессии

number_advisory_locks_cache_gauge

gauge

Общее количество объектов в кеше для взятия блокировки(все существующие состояния)

number_advisory_locks_release_needed_gauge

gauge

Общее количество объектов ожидающих высвобождение рекомендательной блокировки

number_advisory_locks_released_gauge

gauge

Общее количество объектов освободивших рекомендательную блокировку за последнее обновление

number_ready_for_advisory_locks_gauge

gauge

Общее количество объектов готовых к взятию рекомендательной блокировки

number_detected_dbms_objects_gauge

gauge

Текущее количество обнаруженных СУБД всеми агентами Kintsugi

total_number_acquire_lock_failed_and_finish_session

counter

Общее количество блокировок в результате которых сессия агента была завершена

total_number_attempt_to_update_advisory_locks

counter

Количество попыток обновления рекомендательных блокировок(все блокировки обновляются одновременно)

total_number_deferred_reports

counter

Количество полученных отчетов со стороны агента которые были отложены для обработки по причине отсутствия рекомендательной блокировки

total_number_failed_cleanup_storage_operations

counter

Количество неудачных попыток очистить хранилище объектов

total_number_failed_updated_dbms_objects

counter

Количество неудачных попыток обновления списка объектов СУБД

total_number_prepared_metrics_failed_for_uploading_counter

counter

Количество не обработанных метрик в формате Prometheus

total_number_prepared_metrics_for_uploading_counter

counter

Количество обработанных метрик в формате Prometheus

total_number_protocol_acquire_lock_failed

counter

Количество неудачных попыток получения рекомендательной блокировки на уровне обработки протокола

total_number_protocol_acquire_lock_successful

counter

Количество успешных попыток получения рекомендательной блокировки на уровне обработки протокола

total_number_received_metrics_for_uploading_counter

counter

Количество полученных готовых метрик для дальнейшей выгрузки в систему

total_number_reports_processed_failed

counter

Количество неуспешно обработанных отчетов на уровне протокола взаимодействия с агентом

total_number_reports_processed_successful

counter

Количество успешно обработанных отчетов на уровне протокола взаимодействия с агентом

total_number_req_received_for_acquire_advisory_locks

counter

Количество полученных запросов на получение рекомендательной блокировки

total_number_update_advisory_locks_collision

counter

Количество полученных коллизий при попытке обновления списка рекомендательных блокировок

total_number_update_successful_advisory_locks

counter

Количество обновлений списка рекомендательных блокировок завершенных успешно

total_number_update_failed_advisory_locks

counter

Количество обновлений списка рекомендательных блокировок завершенных с ошибкой

total_number_update_metadata_failed

counter

Количество обновлений информации об assets завершенных с ошибкой(запрос в сервис curator)

total_number_update_metadata_successful

counter

Количество обновлений информации об assets завершенных успешно(запрос в сервис curator)

upload_duration_histogram

histogram

Гистограмма распределения длительности времени затраченного на выгрузку метрик в систему

total_number_db_check_connection_successful

counter

Количество проверок целостности сетевого соединения с СУБД завершенных успешно

total_number_db_check_connection_failed

counter

Количество проверок целостности сетевого соединения с СУБД завершенных c ошибкой

total_number_db_connection_attempts

counter

Количество попыток установления сетевого соединения с СУБД

total_number_db_connection_not_established

counter

Количество успешно установленных соединений с СУБД

total_number_db_connection_established_successful

counter

Количество попыток установления соединения с СУБД завершенных ошибкой

Прикладные метрики сервиса scheduler#

Название

Тип

Лейблы

Описание

tasks_count

counter

По типам и статусам задач

Количество задач (статусы и типы)

task_queue_time_histogram

histogram

По типам задач

Длительность нахождения задачи в очереди на выполнение

task_preprocessing_time_histogram

histogram

По типам задач

Длительность подготовки задачи к исполнению

ws_connections_gauge

gauge

По этапам (open, work, close)

Количество открытых WS соединений в данный момент

ws_connection_time_histogram

histogram

По этапам (open, work, close)

Время нахождения WS соединений на разных этапах

task_backend_time_histogram

histogram

По типам задач

Длительность выполнения задачи с момента отправки в backend и до получения результата

task_db_time_histogram

histogram

По типам задач

Длительность выполнения запроса задачи в БД

task_result_processing_time_histogram

histogram

По типам задач

Длительность обработки результата задачи

task_artifact_save_time_histogram

histogram

По типам задач

Длительность записи артефакта задачи в хранилище

task_artifact_size_histogram

histogram

По типам задач

Размер артефакта

task_artifacts_count_histogram

histogram

По типам задач

Количество артефактов на задачу

task_delete_time_histogram

histogram

По типам задач

Длительность удаления задачи

storage_size_gauge

gauge

Размер хранилища

storage_size_cleaned_histogram

histogram

Размер данных, удаленных из хранилища фоновых процессом очистки

Прикладные метрики сервиса alerting#

Название

Тип

Описание

requests_total

Counter

Общее количество запросов к mcwatch

reports_total

Counter

Общее количество отправленных отчетов

transition_events_total

Counter

Общее количество событий перехода

completed_mc_transaction_total

Counter

Число сформированных отчетов от mcwatch

start_current_inteval

Gauge

Начало текущего интервала

interval_width

Gauge

Ширина текущего интервала

kafka_send_latency

Gauge

Задержка отправки сообщений в Kafka