Мониторинг#

Все сервисы Kintsugi (DBCM) публикуют прикладные метрики в формате Prometheus.

Для описания системных метрик используется их конечное представление в среде визуализации Grafana. Шаблоны конфигурации панелей мониторинга Grafana описаны в пункте «Системный мониторинг» раздела «Настройка интеграции» в «Руководстве по установке».

Для сбора и хранения информации о системных метриках используется система мониторинга Platform V Monitor (OPM): Объединенный мониторинг Unimon (MONA).

Настройка#

Platform V Kintsugi (DBM) редакции Enterprise не имеет собственные встроенные средства мониторинга.

Метрики#

Прикладные метрики сервиса backend#

Название

Описание

Размерность

Основные атрибуты

http_requests_total

Количество HTTP-запросов к сервису

count

type: counter

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

seconds

type: histogram

Прикладные метрики сервиса collector#

Название

Описание

Размерность

Основные атрибуты

cache_query_samples_histo

Гистограмма длительности запросов к кеш

seconds

type: histogram

failures_to_upload_counter

Количество попыток выгрузки метрик в хранилище, завершившихся ошибкой

count

type: counter

metrics_backlog_count

Количество метрик в ожидании обработки

count

type: gauge

metrics_error_rate

Коэффициент ошибок при обработке метрик

percentage

type: gauge

metrics_processing_time_avg

Среднее время обработки метрик

seconds

type: gauge

metrics_received_timestamp

Временная метка получения метрик

timestamp

type: gauge

metrics_upload_time_avg

Среднее время загрузки метрик

seconds

type: gauge

scrapers_in_action

Количество скреперов, собирающих метрики из соединений с БД

count

type: gauge

single_query_executed_successfully_counter

Количество выполнения запросов на снятие метрик, завершившихся успешно

count

type: counter

single_query_executed_unsuccessfully_counter

Количество выполнения запросов на снятие метрик, завершившихся ошибкой

count

type: counter

sqlite_cache_bytesize

Размер кеш SQLite

bytes

type: gauge

successful_uploads_counter

Количество попыток выгрузки метрик в хранилище, завершившихся успешно

count

type: counter

total_number_failed_uploaded_bytes

Общее количество байтов, которые не были загружены

bytes

type: counter

total_number_prepared_metrics_failed_for_uploading_counter

Общее количество подготовленных, но не загруженных метрик

count

type: counter

total_number_prepared_metrics_for_uploading_counter

Общее количество подготовленных метрик для загрузки

count

type: counter

total_number_successful_uploaded_bytes

Общее количество успешно загруженных байтов

bytes

type: counter

unique_metrics_processed_counter

Количество уникальных метрик обработанных за период

count

type: counter

update_export_config_durations_histogram_bucket

Распределение длительности обновления конфигурации наблюдаемых БД

seconds

type: histogram

update_export_config_fail_counter

Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД

count

type: counter

update_export_config_success_counter

Количество успешно завершенных обновлений конфигурации наблюдаемых БД

count

type: counter

upload_duration_histogram_bucket

Длительность процедур сбрасывания метрик в хранилище метрик

seconds

type: histogram

worker_process_sample_histo

Гистограмма длительности обработки выборки

seconds

type: histogram

worker_samples_aggregated_counter

Количество агрегированных выборок

count

type: counter

Прикладные метрики сервиса curator#

Название

Описание

Размерность

Основные атрибуты

http_requests_total

Количество HTTP-запросов к сервису

count

type: counter

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

seconds

type: histogram

http_request_duration_seconds_bucket (темплейт)

Распределение длительности выполнения запросов к интерфейсу templates

seconds

type: histogram

http_request_duration_seconds_bucket (кластер)

Распределение длительности выполнения запросов к интерфейсу cluster

seconds

type: histogram

Прикладные метрики сервиса dbperf#

Подсистема collector#

Название

Описание

Размерность

Основные атрибуты

request_processing_time_histogram

Длительность обработки запроса (с момента поступления запроса до возвращения ответа)

seconds

type: histogram, labels: {endpoint}

response_codes_histogram

Коды ответов

count

type: histogram, labels: {endpoint}

total_endpoint_calls

Количество обращений к эндпоинту

count

type: counter, labels: {endpoint}

total_failed_performance_insight_requests

Общее количество завершенных с ошибкой запросов на получение данных о производительности

count

type: counter

total_performance_insight_response_by_timeout

Общее количество завершенных по таймауту запросов на получение данных о производительности

count

type: counter

total_successful_performance_insight_requests

Общее количество успешно выполненных запросов на получение данных о производительности

count

type: counter

total_validation_failed_performance_insight_requests

Общее количество запросов на получение данных о производительности, не прошедших валидацию тела запроса

count

type: counter

Подсистема controller#

Название

Описание

Размерность

Основные атрибуты

database_maintenance_duration_histogram

Распределение длительности технического обслуживания внутреннего хранилища данных

seconds

type: histogram, labels: {storage_type}

performance_insight_database_execution_duration_histogram

Распределение длительности получения данных о производительности из внутреннего хранилища

seconds

type: histogram, labels: {storage_type}

storage_data_reading_time_histogram

Время, затраченное на чтение данных из внутреннего хранилища

seconds

type: histogram, labels: {storage_type}

asset_connection_attempts_counter

Количество попыток подключения к asset

count

type: counter, labels: {asset}

metrics_gathering_time_histogram

Время, затраченное на выполнение запроса по сбору метрик с asset

seconds

type: histogram, labels: {asset}

polling_period_deviation_histogram

Отклонение времени опроса asset

seconds

type: histogram, labels: {asset}

samples_queue_total_size_histogram

Количество всех выборок asset, находящихся в очереди на слияние

count

type: histogram, labels: {asset}

samples_queue_merged_size_histogram

Количество всех выборок asset из очереди, успевших попасть в хранилище за время слияния

count

type: histogram, labels: {asset}

samples_queue_skipped_size_histogram

Количество всех выборок asset из очереди, не успевших попасть в хранилище за время слияния

count

type: histogram, labels: {asset}

scraper_current_connection_status_gauge

Текущий статус подключения к asset (1 = connected, 0 = disconnected)

count

type: gauge, labels: {asset}

scraper_in_use_storage_size_bytes

Количество потребляемой памяти текущим asset

bytes

type: gauge, labels: {asset}

storage_size_limit_bytes

Количественное ограничение потребления памяти для asset

bytes

type: gauge, labels: {asset}

ki_pi_storage_stat_gauge

Метрики внутреннего хранилища

count

type: gauge, labels: {asset, storage_metric}

custom_config_parameter

Значение параметра хранения для конкретного asset

count

type: gauge, labels: {asset, config_parameter}

collect_sample_pg_stat_activity_durations_histogram

Распределение длительности получения данных из таблицы pg_stat_activity

seconds

type: histogram

merge_sample_common_durations_gauge

Текущий уровень общего затраченного времени на запись данных во внутреннее хранилище

seconds

type: gauge

merge_sample_counter

Количество попыток записи данных во внутреннее хранилище

count

type: counter

merge_sample_pg_stat_activity_durations_histogram

Распределение длительности записи данных pg_stat_activity во внутреннее хранилище

seconds

type: histogram

total_created_scrapers_counter

Общее количество созданных объектов сбора данных из pg_stat_activity

count

type: counter

total_deleted_scrapers_counter

Общее количество удаленных объектов сбора данных из pg_stat_activity

count

type: counter

total_merge_sample_failed

Общее количество неуспешных попыток записи данных во внутреннее хранилище

count

type: counter

total_merge_sample_quota_limited

Общее количество неуспешных попыток записи данных во внутреннее хранилище по причине превышения квоты

count

type: counter

total_merge_sample_successful

Общее количество успешных попыток записи данных во внутреннее хранилище

count

type: counter

total_scrapers_db_connected_counter

Общее количество успешных установок соединения с объектами мониторинга

count

type: counter

total_scrapers_db_disconnected_counter

Общее количество разрыва соединений с объектами мониторинга

count

type: counter

total_scrapers_db_instance_updated_counter

Общее количество обновлений конфигураций объектов мониторинга

count

type: counter

Подсистема coordinator#

Название

Описание

Размерность

Основные атрибуты

update_export_config_durations_histogram

Распределение длительности обновления экспортной конфигурации

seconds

type: histogram

update_export_config_fail_counter

Общее количество успешных обновлений конфигурации

count

type: counter

update_export_config_success_counter

Общее количество неудачных обновлений конфигурации

count

type: counter

Подсистема limiter#

Название

Описание

Размерность

Основные атрибуты

concurrent_assets_limit

Максимально возможное количество одновременно взятых в работу asset текущим dbperf

count

type: gauge

concurrent_assets_gauge

Текущее количество одновременно взятых в работу asset текущим dbperf

count

type: gauge

failed_asset_acquisition_counter

Общее количество неуспешных попыток взятия asset в работу текущим dbperf

count

type: counter

free_assets_slots_gauge

Количество свободных слотов для взятия в работу asset текущим dbperf

count

type: gauge

total_created_concurrent_asset_counter

Общее количество взятых в работу asset текущим dbperf

count

type: counter

total_removed_concurrent_asset_counter

Общее количество освобожденных asset текущим dbperf

count

type: counter

total_released_asset_storage_size_bytes

Общий освобожденный объем хранилищ

bytes

type: counter

total_reserved_asset_storage_size_bytes

Общий используемый объем хранилища

bytes

type: counter

released_asset_storage_size_bytes

Текущий освобожденный объем хранилища

bytes

type: gauge

reserved_asset_storage_size_bytes

Текущий используемый объем хранилища

bytes

type: gauge

storage_size_bytes_required_by_failed_assets_counter

Требуемый объем хранилища для взятия asset в работу текущим dbperf

bytes

type: counter

Подсистема repository#

Название

Описание

Размерность

Основные атрибуты

total_failed_acquire_advisory_lock_counter

Общее количество неудачных попыток наложения рекомендательной блокировки в PostgreSQL

count

type: counter

total_failed_release_advisory_lock_counter

Общее количество неудачных попыток снятия рекомендательной блокировки в PostgreSQL

count

type: counter

total_failed_sent_notifications_counter

Общее количество неудачных попыток отправки нотификации

count

type: counter

total_successful_acquire_advisory_lock_counter

Общее количество успешных попыток наложения рекомендательной блокировки в PostgreSQL

count

type: counter

total_successful_release_advisory_lock_counter

Общее количество успешных попыток снятия рекомендательной блокировки в PostgreSQL

count

type: counter

total_successful_sent_notifications_counter

Общее количество успешных попыток отправки нотификации

count

type: counter

Прикладные метрики сервиса kmetrics#

Название

Описание

Размерность

Основные атрибуты

websockets_in_flight

Количество открытых WebSocket-соединений для запросов метрик на данный момент

count

type: gauge

websockets_requests_received

Общее количество полученных валидных запросов по WebSocket-соединениям

count

type: counter

websockets_responses_sent

Общее количество отправленных ответов по WebSocket-соединениям

count

type: counter

websockets_bytes_received

Общее количество байт, полученных через WebSocket-соединения

bytes

type: counter

websockets_bytes_sent

Общее количество байт, отправленных через WebSocket-соединения

bytes

type: counter

sources_opened

Общее количество открытых источников для сбора метрик

count

type: gauge

PromQL_query_success

Успешно выполненные запросы PromQL

count

type: counter

PromQL_query_failure

Неудавшиеся запросы PromQL

count

type: counter

PromQL_query_duration

Продолжительность выполнения запросов PromQL

seconds

type: histogram

Прикладные метрики сервиса piface#

Название

Описание

Размерность

Основные атрибуты

http_requests_total

Количество HTTP-запросов к сервису

count

type: counter

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

seconds

type: histogram

Прикладные метрики сервиса tsdbmon#

Название

Подсистема

Описание

Размерность

Основные атрибуты

http_request_duration_ms

api

Продолжительность HTTP-запроса в миллисекундах

ms

type: histogram

requests_total

query

Количество запросов на обслуживание

count

type: counter

duration_seconds

query

Время, необходимое для ответа на query/ query_batch

seconds

type: histogram

requests_total

ingest

Общее количество запросов ingestor

count

type: counter

duration_seconds

ingest

Время затрачено (обработка + вставка в БД) на запись выборки

seconds

type: histogram

items_received

ingest

Количество полученных образцов

count

type: counter

active_write_requests

ingest

Количество активных процессов записи на данный момент

count

type: gauge

duplicates_total

ingest

Общее количество обработанных выборок / запросов на запись / метрик, с дубликатами

count

type: counter

decompress_calls_total

ingest

Общее количество вызовов decompress_chunks_after

count

type: counter

decompress_min_unix_time

ingest

Самое раннее время декомпрессии в UNIX-формате

timestamp

type: gauge

max_sent_timestamp_milliseconds

ingest

Максимальная метка времени для выборок, которые сервис отправляет в БД

timestamp

type: gauge

channel_cap

ingest

Емкость канала ingest

count

type: gauge

channel_len

ingest

Длина канала ingest

count

type: gauge

flush_series

ingest

Количество серий обработанных ingestor

count

type: counter

inserted_total

ingest

Общее количество выборок, вставленных в БД

count

type: counter

inserts_per_batch

ingest

Количество операций вставок в одной транзакции

count

type: gauge

rows_per_batch

ingest

Количество строк в одной транзакции

rows

type: gauge

rows_per_insert

ingest

Количество строк, вставленных в один оператор вставки

rows

type: gauge

insert_duration_seconds

ingest

Продолжительность вызовов вставки выборок в БД

seconds

type: histogram

items_total

ingest

Общее количество вставленных выборок

count

type: counter

active_connections

sql_database

Количество соединений, в настоящее время получаемых из пула-соединений

count

type: gauge

total_connections

sql_database

Общее количество соединений с БД

count

type: gauge

requests_total

database

Общее количество запросов к БД

count

type: counter

request_errors_total

database

Общее количество ошибок на запросы к БД

count

type: counter

requests_duration_seconds

database

Время необходимое для получения данных по запросу и обработки ответа

seconds

type: histogram

Прикладные метрики сервиса mcwatch#

Название

Описание

Размерность

Основные атрибуты

upload_data_to_upstream_duration_sec_histogram

Гистограмма длительности записанных BAT-файлов в tsdb

seconds

type: histogram

total_time_series_upload_successful_counter

Общее количество успешных выгруженных данных временных рядов

count

type: counter

total_time_series_upload_failed_counter

Общее количество неуспешных выгрузок данных временных рядов

count

type: counter

total_time_series_batch_received_counter

Общее количество полученных BAT-файлов временных рядов

count

type: counter

total_time_series_value_enqueue_for_cmp_successful_counter

Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для сравнения

count

type: counter

total_time_series_value_enqueue_for_cmp_failed_counter

Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для сравнения

count

type: counter

total_number_waiting_process_complete_counter

Общее количество ожиданий завершения процесса

count

type: counter

total_input_ts_data_counter

Общее количество входных выборок данных временных рядов

count

type: counter

total_internal_ts_data_reply_failed

Общее количество неудачных внутренних ответов на полученные временные ряды

count

type: counter

total_number_running_process_ts_data

Общее количество запущенных процессов обработки запросов

count

type: gauge

total_input_ts_data_process_successful

Общее количество запросов с успешной обработкой

count

type: counter

total_input_ts_data_process_failed

Общее количество запросов с неуспешной обработкой

count

type: counter

time_series_data_processing_duration_histogram

Общая продолжительность обработки данных временных рядов

seconds

type: histogram

check_appeared_intervals_duration_sec_histogram

Гистограмма проверки длительности появившихся интервалов

seconds

type: histogram

total_number_check_appeared_intervals_successful

Общее количество успешных запросов на получение интервалов пересечений порога

count

type: counter

total_number_check_appeared_intervals_failed

Общее количество неуспешных запросов на получение интервалов пересечений порога

count

type: counter

read_metrics_threshold_duration_sec_histogram

Гистограмма запросов на чтение значений порогов

seconds

type: histogram

total_ping_database_connection_successful_counter

Общее количество успешных запросов на соединение с БД

count

type: counter

total_ping_database_connection_failed_counter

Общее количество неуспешных запросов на соединение с БД

count

type: counter

total_refresh_database_connection_counter

Общее количество запросов на переподключение к БД

count

type: counter

total_missing_required_labels_counter

Общее количество элементов с недостающими метками

count

type: counter

total_number_read_metric_thresholds_started

Общее количество запросов на получение значений порогов

count

type: counter

total_number_read_metric_thresholds_failed

Общее количество неуспешных запросов на получение значений порогов

count

type: counter

total_number_read_metric_thresholds_success

Общее количество успешных запросов на получение значений порогов

count

type: counter

total_number_write_appeared_episode_failed

Общее количество неуспешной записи рассчитанного эпизода пересечения значения порога

count

type: counter

total_number_write_appeared_episode_success

Общее количество успешной записи рассчитанного эпизода пересечения значения порога

count

type: counter

total_number_write_appeared_episode_started

Общее количество попыток записи рассчитанного эпизода пересечения значения порога

count

type: counter

total_time_series_received_counter

Общее количество полученных выборок

count

type: counter

http_write_handler_duration_sec_histogram

Гистограмма длительности выполнения запроса на запись

seconds

type: histogram

total_time_series_batch_enqueue_for_upload_successful_counter

Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для выгрузки в tsdb

count

type: counter

total_time_series_batch_enqueue_for_upload_failed_counter

Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для выгрузки tsdb

count

type: counter

total_write_operation_successful_counter

Общее количество успешных операций сохранения

count

type: counter

total_write_operation_failed_counter

Общее количество неуспешных операций сохранения

count

type: counter

total_write_operation_counter

Общее количество операций сохранения

count

type: counter

http_response_json_encode_successful_counter

Общее количество успешных кодировок ответа

count

type: counter

http_response_json_encode_failed_counter

Общее количество неуспешных кодировок ответа

count

type: counter

parse_operation_failed_counter

Общее количество неуспешных попыток парсинга операции

count

type: counter

http_response_timeout_error_counter

Общее количество неуспешных запросов окончившихся по таймауту

count

type: counter

transmit_time_series_success_counter

Общее количество успешно записанных выборок в tsdb

count

type: counter

transmit_batch_success_counter

Общее количество успешно записанных BAT-файлов в tsdb

count

type: counter

Прикладные метрики сервиса inform#

Название

Описание

Размерность

Основные атрибуты

inform_poll_dispatcher_performance_waiting_asset_quantity

Количество ОМ, ожидающих опроса

count

type: Gauge

inform_poll_dispatcher_performance_polling_asset_quantity

Количество опрашиваемых ОМ

count

type: Gauge

inform_poll_dispatcher_performance_storage_asset_quantity

Количество ОМ, ожидающих операции с хранилищем

count

type: Gauge

inform_poll_dispatcher_general_stat_poll_in_time_count

Общее количество опросов вовремя

count

type: Counter

inform_poll_dispatcher_general_stat_poll_late_count

Общее количество опросов с опозданием

count

type: Counter

inform_poll_dispatcher_general_stat_poll_late_sec

Общее опоздание опроса

seconds

type: Gauge

inform_poll_dispatcher_general_stat_poll_period_sec

Общий период опроса

seconds

type: Gauge

inform_poll_dispatcher_general_stat_fact_plan_poll_period_diff_sec

Общая разница между спланированных период опроса и фактическим периодом опроса

seconds

type: Gauge

inform_poll_dispatcher_general_stat_fact_read_overview_metrics_sec

Общее время сбора метрик с ОМ

seconds

type: Gauge

inform_asset_id_poll_stat_poll_in_time_count

Количество опросов вовремя по каждому ОМ

count

type: Counter

inform_asset_id_poll_stat_poll_late_count

Количество опросов с опозданием по каждому ОМ

count

type: Counter

inform_asset_id_poll_stat_poll_late_sec

Опоздание опроса по каждому ОМ

seconds

type: Gauge

inform_asset_id_poll_stat_poll_period_sec

Период опроса по каждому ОМ

seconds

type: Gauge

inform_asset_id_poll_stat_fact_plan_poll_period_diff_sec

Разница между спланированных период опроса и фактическим периодом опроса по каждому ОМ

seconds

type: Gauge

inform_asset_id_poll_stat_fact_read_overview_metrics_sec

Время сбора метрик с ОМ по каждому ОМ

seconds

type: Gauge

Прикладные метрики сервиса audit proxy#

Название

Описание

Размерность

Основные атрибуты

model_already_relayed_counter

Количество ненужных регистраций метамодели аудита (метамодель была зарегистрирована ранее)

count

type: counter

model_relayed_success_counter

Количество регистраций метамодели аудита, завершившихся успешно

count

type: counter

model_relay_failed_counter

Количество регистраций метамодели аудита, завершившихся ошибкой

count

type: counter

Прикладные метрики сервиса dbterm#

Название

Описание

Размерность

Основные атрибуты

database_connections_gauge

Количество объектов обработки активных соединений к контролируемым БД

count

type: gauge

http_request_counter

Количество полученных HTTP-запросов

count

type: counter

protocol_handlers_gauge

Количество обработки активных сессий

count

type: gauge

total_database_broken_connection_counter

Количество разорванных соединений к контролируемым БД

count

type: counter

total_database_established_connection_counter

Количество успешных подключений к контролируемым БД

count

type: counter

total_failed_protocol_handshake_counter

Количество неустановленных соединений, у которых ошибка произошла на этапе «рукопожатия»

count

type: counter

total_successful_protocol_handshake_counter

Количество установленных соединений на этапе «рукопожатия»

count

type: counter

total_ws_session_abnormal_closed_counter

Количество завершенных нештатным образом сессий WebSocket

count

type: counter

total_ws_session_closed_counter

Количество планово завершенных сессий WebSocket

count

type: counter

total_ws_session_deadline_exceed_counter

Количество завершенных сессий, восстановленных не по инициативе клиента

count

type: counter

total_ws_session_restore_failed_counter

Количество невосстановленных сессий

count

type: counter

total_ws_session_restore_success_counter

Количество успешно восстановленных сессий

count

type: counter

total_ws_terminated_counter

Количество завершенных сессий

count

type: counter

transport_completed_connections_counter

Количество обработчиков, завершивших работу транспортного уровня

count

type: counter

transport_running_connections_counter

Количество активных обработчиков транспортного уровня

count

type: counter

ws_connection_accepted_counter

Количество принятых WebSocket-соединений

count

type: counter

ws_connection_rejected_counter

Количество отклоненных WebSocket-соединений

count

type: counter

ws_connection_unaccepted_counter

Количество непринятых WebSocket-соединений в следствии ошибки

count

type: counter

Прикладные метрики сервиса AgentWay#

Название

Описание

Размерность

Основные атрибуты

agent_sessions_in_progress_gauge

Количество установленных соединений от агента в настоящий момент времени

count

type: gauge

total_number_accepted_agent_sessions

Количество принятых соединений от агента

count

type: counter

total_number_declined_agent_sessions

Количество отклоненных соединений от агента

count

type: counter

total_number_released_agent_sessions

Количество завершенных соединений с агентом

count

type: counter

total_number_handshake_failed

Количество неуспешно установленных соединений на этапе handshake

count

type: counter

total_number_handshake_successful

Количество успешно установленных соединений на этапе handshake

count

type: counter

total_number_measurement_reports_received

Количество принятых сообщений с информацией о выборках (CPU,memory)

count

type: counter

total_number_scanner_reports_received

Количество принятых сообщений с информацией об обнаруженных СУБД агентом

count

type: counter

producer_raw_samples_received

Количество принятых выборок для создания метрик в системе

count

type: counter

total_number_metrics_created

Количество созданных метрик из выборок

count

type: counter

total_number_metrics_passed_to_uploader

Количество переданных метрик для выгрузки в систему

count

type: counter

number_detected_dbms_objects_gauge

Количество известных и зарегистрированных СУБД в системе

count

type: gauge

total_number_failed_updated_dbms_objects

Количество неудачных попыток обновления информации об СУБД

count

type: counter

total_number_successful_updated_dbms_objects

Количество удачных попыток обновления информации об СУБД

count

type: counter

total_number_successful_cleanup_storage_operations

Количество успешных попыток очистки данных об обнаруженных СУБД

count

type: counter

total_number_received_bytes_from_asset_source

Количество полученных байт из сервиса-владельца информации об assets

bytes

type: counter

total_number_update_metadata_failed

Количество неуспешных попыток получения meta информации

count

type: counter

total_number_update_metadata_successful

Количество успешных попыток получения meta информации

count

type: counter

total_number_successful_uploaded_bytes

Количество успешно выгруженных байт из сервиса в систему метрик

bytes

type: counter

total_number_failed_uploaded_bytes

Количество неуспешно выгруженных байт из сервиса в систему метрик

bytes

type: counter

assets_metadata_update_time_duration_histo_bucket

Гистограмма распределения длительности получения метаданных из сервиса curator

seconds

type: histogram

failures_to_upload_counter

Количество неуспешных попыток записи метрик в систему

count

type: counter

successful_uploads_counter

Количество успешных попыток записи метрик в систему

count

type: counter

number_acquired_advisory_locks

Количество успешно захваченных рекомендательных блокировок для агентской сессии

count

type: gauge

number_advisory_locks_cache_gauge

Общее количество объектов в кеше для взятия блокировки (все существующие состояния)

count

type: gauge

number_advisory_locks_release_needed_gauge

Общее количество объектов, ожидающих высвобождение рекомендательной блокировки

count

type: gauge

number_advisory_locks_released_gauge

Общее количество объектов, освободивших рекомендательную блокировку за последнее обновление

count

type: gauge

number_ready_for_advisory_locks_gauge

Общее количество объектов, готовых к взятию рекомендательной блокировки

count

type: gauge

number_detected_dbms_objects_gauge

Текущее количество обнаруженных СУБД всеми агентами Kintsugi

count

type: gauge

total_number_acquire_lock_failed_and_finish_session

Количество блокировок, в результате которых сессия агента была завершена

count

type: counter

total_number_attempt_to_update_advisory_locks

Количество попыток обновления рекомендательных блокировок (все блокировки обновляются одновременно)

count

type: counter

total_number_deferred_reports

Количество полученных отчетов со стороны агента, которые были отложены для обработки по причине отсутствия рекомендательной блокировки

count

type: counter

total_number_failed_cleanup_storage_operations

Количество неудачных попыток очистить хранилище объектов

count

type: counter

total_number_failed_updated_dbms_objects

Количество неудачных попыток обновления списка объектов СУБД

count

type: counter

total_number_prepared_metrics_failed_for_uploading_counter

Количество не обработанных метрик в формате Prometheus

count

type: counter

total_number_prepared_metrics_for_uploading_counter

Количество обработанных метрик в формате Prometheus

count

type: counter

total_number_protocol_acquire_lock_failed

Количество неудачных попыток получения рекомендательной блокировки на уровне обработки протокола

count

type: counter

total_number_protocol_acquire_lock_successful

Количество успешных попыток получения рекомендательной блокировки на уровне обработки протокола

count

type: counter

total_number_received_metrics_for_uploading_counter

Количество полученных готовых метрик для дальнейшей выгрузки в систему

count

type: counter

total_number_reports_processed_failed

Количество неуспешно обработанных отчетов на уровне протокола взаимодействия с агентом

count

type: counter

total_number_reports_processed_successful

Количество успешно обработанных отчетов на уровне протокола взаимодействия с агентом

count

type: counter

total_number_req_received_for_acquire_advisory_locks

Количество полученных запросов на получение рекомендательной блокировки

count

type: counter

total_number_update_advisory_locks_collision

Количество полученных коллизий при попытке обновления списка рекомендательных блокировок

count

type: counter

total_number_update_successful_advisory_locks

Количество обновлений списка рекомендательных блокировок, завершенных успешно

count

type: counter

total_number_update_failed_advisory_locks

Количество обновлений списка рекомендательных блокировок, завершенных с ошибкой

count

type: counter

total_number_update_metadata_failed

Количество обновлений информации об assets, завершенных с ошибкой (запрос в сервис curator)

count

type: counter

total_number_update_metadata_successful

Количество обновлений информации об assets, завершенных успешно (запрос в сервис curator)

count

type: counter

upload_duration_histogram

Гистограмма распределения длительности времени, затраченного на выгрузку метрик в систему

seconds

type: histogram

total_number_db_check_connection_successful

Количество проверок целостности сетевого соединения с СУБД, завершенных успешно

count

type: counter

total_number_db_check_connection_failed

Количество проверок целостности сетевого соединения с СУБД, завершенных с ошибкой

count

type: counter

total_number_db_connection_attempts

Количество попыток установления сетевого соединения с СУБД

count

type: counter

total_number_db_connection_not_established

Количество успешно установленных соединений с СУБД

count

type: counter

total_number_db_connection_established_successful

Количество попыток установления соединения с СУБД, завершенных ошибкой

count

type: counter

Прикладные метрики сервиса scheduler#

Название

Описание

Размерность

Основные атрибуты

tasks_count

Количество задач (статусы и типы)

count

type: counter, labels: {type, status}

task_queue_time_histogram

Длительность нахождения задачи в очереди на выполнение

seconds

type: histogram, labels: {task_type}

task_preprocessing_time_histogram

Длительность подготовки задачи к исполнению

seconds

type: histogram, labels: {task_type}

ws_connections_gauge

Количество открытых WS соединений в данный момент

count

type: gauge, labels: {stage}

ws_connection_time_histogram

Время нахождения WS соединений на разных этапах

seconds

type: histogram, labels: {stage}

task_backend_time_histogram

Длительность выполнения задачи с момента отправки в backend и до получения результата

seconds

type: histogram, labels: {task_type}

task_db_time_histogram

Длительность выполнения запроса задачи в БД

seconds

type: histogram, labels: {task_type}

task_result_processing_time_histogram

Длительность обработки результата задачи

seconds

type: histogram, labels: {task_type}

task_artifact_save_time_histogram

Длительность записи артефакта задачи в хранилище

seconds

type: histogram, labels: {task_type}

task_artifact_size_histogram

Размер артефакта

bytes

type: histogram, labels: {task_type}

task_artifacts_count_histogram

Количество артефактов на задачу

count

type: histogram, labels: {task_type}

task_delete_time_histogram

Длительность удаления задачи

seconds

type: histogram, labels: {task_type}

storage_size_gauge

Размер хранилища

bytes

type: gauge

storage_size_cleaned_histogram

Размер данных, удаленных из хранилища фоновыми процессами очистки

bytes

type: histogram

Прикладные метрики сервиса alerting#

Название

Описание

Размерность

Основные атрибуты

requests_total

Общее количество запросов к mcwatch

count

type: counter

reports_total

Общее количество отправленных отчетов

count

type: counter

transition_events_total

Общее количество событий перехода

count

type: counter

completed_mc_transaction_total

Число сформированных отчетов от mcwatch

count

type: counter

start_current_inteval

Начало текущего интервала

timestamp

type: gauge

interval_width

Ширина текущего интервала

seconds

type: gauge

kafka_send_latency

Задержка отправки сообщений в Kafka

seconds

type: gauge

Прикладные метрики сервиса configman#

HTTP API — Запросы к API сервиса#

Название

Описание

Размерность

Основные атрибуты

configman_configuration_get_requests_total

Общее количество GET-запросов к API для получения конфигурации

count

type: counter

configman_configuration_get_requests_success_total

Количество успешных GET-запросов к API для получения конфигурации

count

type: counter

configman_configuration_get_requests_failed_total

Количество неудачных GET-запросов к API для получения конфигурации

count

type: counter

configman_configuration_get_duration_seconds

Время выполнения GET-запросов к API для получения конфигурации

seconds

type: histogram

configman_configuration_set_requests_total

Общее количество SET-запросов к API для установки конфигурации

count

type: counter

configman_configuration_set_requests_success_total

Количество успешных SET-запросов к API для установки конфигурации

count

type: counter

configman_configuration_set_requests_failed_total

Количество неудачных SET-запросов к API для установки конфигурации

count

type: counter

configman_configuration_set_duration_seconds

Время выполнения SET-запросов к API для установки конфигурации

seconds

type: histogram

configman_validation_requests_total

Общее количество запросов к API для валидации конфигурации

count

type: counter

configman_validation_requests_success_total

Количество успешных запросов к API для валидации конфигурации

count

type: counter

configman_validation_requests_failed_total

Количество неудачных запросов к API для валидации конфигурации

count

type: counter

configman_validation_duration_seconds

Время выполнения запросов к API для валидации конфигурации

seconds

type: histogram

configman_recommendations_requests_total

Общее количество запросов к API для получения рекомендаций

count

type: counter

configman_recommendations_requests_success_total

Количество успешных запросов к API для получения рекомендаций

count

type: counter

configman_recommendations_requests_failed_total

Количество неудачных запросов к API для получения рекомендаций

count

type: counter

configman_recommendations_duration_seconds

Время выполнения запросов к API для получения рекомендаций

seconds

type: histogram

Взаимодействие с сервисом Backend — Операции внутри сервиса#

Название

Описание

Размерность

Основные атрибуты

configman_configuration_get_from_backend_count

Общее количество операций получения конфигурации из сервиса Backend

count

type: counter

configman_configuration_get_from_backend_success_count

Количество успешных операций получения конфигурации из сервиса Backend

count

type: counter

configman_configuration_get_from_backend_failed_count

Количество неудачных операций получения конфигурации из сервиса Backend

count

type: counter

configman_configuration_get_from_backend_seconds

Время выполнения операций получения конфигурации из сервиса Backend

seconds

type: histogram

configman_configuration_set_to_backend_total_count

Общее количество операций отправки конфигурации в сервис Backend

count

type: counter

configman_configuration_set_to_backend_stage_success_count

Количество успешных промежуточных (stage) операций отправки конфигурации в сервис Backend

count

type: counter

configman_configuration_set_to_backend_stage_failed_count

Количество неудачных промежуточных (stage) операций отправки конфигурации в сервис Backend

count

type: counter

configman_configuration_set_to_backend_stage_seconds

Время выполнения промежуточных (stage) операций отправки конфигурации в сервис Backend

seconds

type: histogram

configman_configuration_set_to_backend_operation_seconds

Общее время выполнения полной операции отправки конфигурации в сервис Backend

seconds

type: histogram

configman_refresh_configuration_success_count

Количество успешных операций обновления (refresh) конфигурации

count

type: counter

configman_refresh_configuration_failed_count

Количество неудачных операций обновления (refresh) конфигурации

count

type: counter

configman_refresh_configuration_seconds

Время выполнения операций обновления (refresh) конфигурации

seconds

type: histogram

Валидация — Внутренние операции валидации#

Название

Описание

Размерность

Основные атрибуты

configman_service_validation_requests_total

Общее количество внутренних запросов на валидацию конфигурации

count

type: counter

configman_service_validation_requests_success_total

Количество успешных внутренних запросов на валидацию конфигурации

count

type: counter

configman_service_validation_requests_failed_total

Количество неудачных внутренних запросов на валидацию конфигурации

count

type: counter

configman_service_validation_duration_seconds

Время выполнения внутренних запросов на валидацию конфигурации

seconds

type: histogram

Рекомендации — Внутренние операции получения рекомендаций#

Название

Описание

Размерность

Основные атрибуты

configman_service_recommendations_requests_total

Общее количество внутренних запросов на получение рекомендаций

count

type: counter

configman_service_recommendations_requests_success_total

Количество успешных внутренних запросов на получение рекомендаций

count

type: counter

configman_service_recommendations_requests_failed_total

Количество неудачных внутренних запросов на получение рекомендаций

count

type: counter

configman_service_recommendations_duration_seconds

Время выполнения внутренних запросов на получение рекомендаций

seconds

type: histogram