Мониторинг#

Все сервисы Kintsugi (DBCM) публикуют прикладные метрики в формате Prometheus.

Настройка#

Platform V Kintsugi (DBM) редакция Standard не имеет собственные встроенные средства мониторинга.

Метрики#

Прикладные метрики сервиса backend#

Метрика

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

Прикладные метрики сервиса collector#

Метрика

Описание

successful_uploads_counter

Количество попыток выгрузки метрик в хранилище, завершившихся успешно

failures_to_upload_counter

Количество попыток выгрузки метрик в хранилище, завершившихся ошибкой

single_query_executed_successfully_counter

Количество выполнения запросов на снятие метрик, завершившихся успешно

single_query_executed_unsuccessfully_counter

Количество выполнения запросов на снятие метрик, завершившихся ошибкой

batch_query_database_durations_histogram_bucket

Длительность выполнения пакетных запросов метрик к наблюдаемым базам

update_export_config_success_counter

Количество успешно завершенных обновлений конфигурации наблюдаемых БД

update_export_config_fail_counter

Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД

update_export_config_durations_histogram_bucket

Распределение длительности обновления конфигурации наблюдаемых БД

upload_duration_histogram_bucket

Длительность процедур сбрасывания метрик в хранилище метрик

Прикладные метрики сервиса curator#

Метрика

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

http_request_duration_seconds_bucket (templates)

Распределение длительности выполнения запросов к интерфейсу templates

http_request_duration_seconds_bucket (cluster)

Распределение длительности выполнения запросов к интерфейсу cluster

Прикладные метрики сервиса dbperf#

Метрика

Описание

update_export_config_success_counter

Количество успешно завершенных обновлений конфигурации наблюдаемых БД

update_export_config_fail_counter

Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД

collect_sample_pg_stat_activity_durations_histogram_bucket

Распределение длительности получения данных из таблицы pg_stat_activity

database_maintenance_duration_histogram

Распределение длительности технического обслуживания внутреннего хранилища данных

merge_sample_common_durations_gauge

Текущий уровень общего затраченного времени на запись данных во внутреннее хранилище

merge_sample_counter

Количество попыток записи данных во внутреннее хранилище

merge_sample_pg_stat_activity_durations_histogram

Распределение длительности записи данных pg_stat_activity во внутреннее хранилище

performance_insight_database_execution_duration_histogram

Распределение длительности получения данных о производительности из внутреннего хранилища

performance_insight_request_execution_duration_histogram

Распределение длительности выполнения запроса получения данных о производительности

total_created_scrapers_counter

Количество созданных объектов сбора данных из pg_stat_activity

total_deleted_scrapers_counter

Количество удаленных объектов сбора данных из pg_stat_activity

total_failed_acquire_advisory_lock_counter

Количество неудачных попыток наложения рекомендательной блокировки в PostgreSQL

total_failed_performance_insight_requests

Количество завершенных с ошибкой запросов получения данных о производительности

total_failed_release_advisory_lock_counter

Количество неудачных попыток снятия рекомендательной блокировки в PostgreSQL

total_failed_sent_notifications_counter

Количество неудачных попыток отправки нотификации

total_performance_insight_response_by_timeout

Количество запросов получения данных о производительности, завершенных по тайм-ауту

total_scrapers_db_connected_counter

Количество успешных установок соединения к объектам мониторинга

total_scrapers_db_disconnected_counter

Количество разрыва соединений от объектов мониторинга

total_scrapers_db_instance_updated_counter

Количество обновлений данных объектов мониторинга

total_successful_acquire_advisory_lock_counter

Количество успешных попыток наложения рекомендательной блокировки в PostgreSQL

total_successful_performance_insight_requests

Количество запросов получения данных о производительности, завершенных успешно

total_successful_release_advisory_lock_counter

Количество успешных попыток снятия рекомендательной блокировки в PostgreSQL

total_successful_sent_notifications_counter

Количество успешных попыток отправки нотификации

total_validation_failed_performance_insight_requests

Количество полученных запросов, непрошедших валидацию структуры данных

update_export_config_durations_histogram

Распределение длительности обновления экспортной конфигурации

locks_tree

Получение всех деревьев блокировок на момент времени

Прикладные метрики сервиса kmetrics#

Метрика

Описание

websockets_requests_received

Количество запросов, полученных через WebSocket-соединение

websockets_responses_sent

Количество ответов на запросы, отправленных через WebSocket-соединение

websockets_in_flight

Количество WebSocket-запросов в обработке

websockets_bytes_sent

Количество байт, отправленных через WebSocket-соединение

websockets_bytes_received

Количество байт, полученных через WebSocket-соединение

Прикладные метрики сервиса piface#

Метрика

Описание

http_requests_total

Количество HTTP-запросов к сервису

http_request_duration_highr_seconds_bucket

Распределение длительности выполнения запросов

Прикладные метрики сервиса mcwatch#

Метрика

Описание

http_request_duration_ms

Продолжительность HTTP-запроса в миллисекундах

transmit_time_series_success_counter

Количество метрик, переданных успешно в адаптер БД

transmit_batch_success_counter

Количество пакетов значений метрик, переданных в адаптер БД

comparator_validate_thresholds_total

Количество обработанных пороговых значений

comparator_validate_thresholds_alert_counter

Количество обработанных значений, пересекающих порог

available_thresholds_request_count

Количество обработанных запросов получения заданных пороговых значений

Прикладные метрики сервиса inform#

Метрика

Описание

inform_pg_unit_connections

Количество открытых соединений в БД

inform_known_pg_units_count

Количество модулей, наблюдаемых компонентом

inform_storage_items_count

Количество значений, находящихся в хранилище

inform_storage_updates_count

Счетчик операций обновления в хранилище

Прикладные метрики сервиса AgentWay#

Метрика

Описание

agent_sessions_in_progress_gauge

Количество соединений, находящихся в обработке в текущий момент времени

total_number_accepted_agent_sessions

Количество принятых соединений от агента для обработки протокола

total_number_released_agent_sessions

Количество завершенных соединений с агентом

total_number_declined_agent_sessions

Количество отклоненных соединений от агента по причине превышения значения ограничения количества сессий (задается конфигурационным параметром)

total_number_handshake_successful

Количество успешно установленных соединений на этапе handshake

total_number_handshake_failed

Количество неуспешно установленных соединений на этапе handshake

total_number_measurement_reports_received

Количество принятых сообщений с информацией о выборках (CPU, memory)

total_number_scanner_reports_received

Количество принятых сообщений с информацией об обнаруженных СУБД агентом

total_number_acquire_lock_failed_and_finish_session

Общее количество блокировок, в результате которых сессия агента была завершена

total_number_deferred_reports

Количество полученных отчетов со стороны агента, отложенных для обработки по причине отсутствия рекомендательной блокировки

total_number_protocol_acquire_lock_failed

Количество неудачных попыток получения рекомендательной блокировки на уровне обработки протокола

total_number_protocol_acquire_lock_successful

Количество успешных попыток получения рекомендательной блокировки на уровне обработки протокола

producer_raw_samples_received

Количество принятых выборок (CPU, memory) для создания метрик в системе

total_number_metrics_created

Количество созданных метрик из выборок

total_number_metrics_passed_to_uploader

Количество переданных метрик (в архитектурный слой uploader) для выгрузки в систему

total_number_measurement_reports_received

Количество принятых сообщений с информацией о выборках (CPU, memory)

producer_raw_samples_received

Количество принятых выборок (CPU, memory) для создания метрик в системе

total_number_received_bytes_from_asset_source

Количество полученных байт из сервиса-владельца информации об активах. Если информация отсутствует, это означает, что ни одна из метрик не будет записана в систему

total_number_metrics_created

Количество созданных метрик из выборок

total_number_metrics_passed_to_uploader

Количество переданных метрик для выгрузки в систему

failures_to_upload_counter

Количество неуспешных попыток записи метрик в систему

successful_uploads_counter

Количество успешных попыток записи метрик в систему

total_number_successful_uploaded_bytes

Количество успешно выгруженных байт из сервиса в систему метрик

total_number_failed_uploaded_bytes

Количество неуспешно выгруженных байт из сервиса в систему метрик

total_number_scanner_reports_received

Количество принятых сообщений с информацией об обнаруженных СУБД агентом

number_detected_dbms_objects_gauge

Текущее количество обнаруженных СУБД всеми агентами Kintsugi

total_number_failed_updated_dbms_objects

Количество неудачных попыток обновления информации об СУБД

total_number_successful_updated_dbms_objects

Количество удачных попыток обновления информации об СУБД

total_number_db_check_connection_successful

Количество проверок целостности сетевого соединения с СУБД, завершенных успешно

total_number_db_check_connection_failed

Количество проверок целостности сетевого соединения с СУБД, завершенных ошибкой

total_number_db_connection_attempts

Количество попыток установления сетевого соединения с СУБД

total_number_db_connection_not_established

Количество успешно установленных соединений с СУБД

total_number_db_connection_established_successful

Количество попыток установления соединения с СУБД, завершенных ошибкой

Прикладные метрики сервиса scheduler#

Метрика

Описание

tasks_count

Количество задач (статусы и типы)

task_queue_time_histogram

Длительность нахождения задачи в очереди на выполнение

task_preprocessing_time_histogram

Длительность подготовки задачи к исполнению

ws_connections_gauge

Количество открытых WebSocket-соединений в данный момент

ws_connection_time_histogram

Время нахождения WebSocket-соединений на разных этапах

task_backend_time_histogram

Длительность выполнения задачи с момента отправки в backend и до получения результата

task_db_time_histogram

Длительность выполнения запроса задачи в БД

task_result_processing_time_histogram

Длительность обработки результата задачи

task_artifact_save_time_histogram

Длительность записи артефакта задачи в хранилище

task_artifact_size_histogram

Размер артефакта

task_artifacts_count_histogram

Количество артефактов на задачу

task_delete_time_histogram

Длительность удаления задачи

storage_size_gauge

Размер хранилища

storage_size_cleaned_histogram

Размер данных, удаленных из хранилища фоновых процессом очистки