Мониторинг#
Все сервисы Kintsugi (DBCM) публикуют прикладные метрики в формате Prometheus.
Для описания системных метрик используется их конечное представление в среде визуализации Grafana. Шаблоны конфигурации панелей мониторинга Grafana описаны в пункте «Системный мониторинг» раздела «Настройка интеграции» в «Руководстве по установке».
Для сбора и хранения информации о системных метриках используется система мониторинга Platform V Monitor (OPM): Объединенный мониторинг Unimon (MONA).
Настройка#
Platform V Kintsugi (DBM) редакции Enterprise не имеет собственные встроенные средства мониторинга.
Метрики#
Прикладные метрики сервиса backend#
Название |
Описание |
|---|---|
http_requests_total |
Количество HTTP-запросов к сервису |
http_request_duration_highr_seconds_bucket |
Распределение длительности выполнения запросов |
Прикладные метрики сервиса collector#
Название |
Описание |
|---|---|
cache_query_samples_histo |
Гистограмма длительности запросов к кеш |
failures_to_upload_counter |
Количество попыток выгрузки метрик в хранилище, завершившихся ошибкой |
metrics_backlog_count |
Количество метрик в ожидании обработки |
metrics_error_rate |
Коэффициент ошибок при обработке метрик |
metrics_processing_time_avg |
Среднее время обработки метрик |
metrics_received_timestamp |
Временная метка получения метрик |
metrics_upload_time_avg |
Среднее время загрузки метрик |
scrapers_in_action |
Количество скреперов, собирающих метрики из соединений с БД |
single_query_executed_successfully_counter |
Количество выполнения запросов на снятие метрик, завершившихся успешно |
single_query_executed_unsuccessfully_counter |
Количество выполнения запросов на снятие метрик, завершившихся ошибкой |
sqlite_cache_bytesize |
Размер кеш SQLite |
successful_uploads_counter |
Количество попыток выгрузки метрик в хранилище, завершившихся успешно |
total_number_failed_uploaded_bytes |
Общее количество байтов, которые не были загружены |
total_number_prepared_metrics_failed_for_uploading_counter |
Общее количество подготовленных, но не загруженных метрик |
total_number_prepared_metrics_for_uploading_counter |
Общее количество подготовленных метрик для загрузки |
total_number_successful_uploaded_bytes |
Общее количество успешно загруженных байтов |
unique_metrics_processed_counter |
Количество уникальных метрик обработанных за период |
update_export_config_durations_histogram_bucket |
Распределение длительности обновления конфигурации наблюдаемых БД |
update_export_config_fail_counter |
Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД |
update_export_config_success_counter |
Количество успешно завершенных обновлений конфигурации наблюдаемых БД |
upload_duration_histogram_bucket |
Длительность процедур сбрасывания метрик в хранилище метрик |
worker_process_sample_histo |
Гистограмма длительности обработки выборки |
worker_samples_aggregated_counter |
Количество агрегированных выборок |
Прикладные метрики сервиса curator#
Название |
Описание |
|---|---|
http_requests_total |
Количество HTTP-запросов к сервису |
http_request_duration_highr_seconds_bucket |
Распределение длительности выполнения запросов |
http_request_duration_seconds_bucket` (templates) |
Распределение длительности выполнения запросов к интерфейсу templates |
http_request_duration_seconds_bucket` (cluster) |
Распределение длительности выполнения запросов к интерфейсу cluster |
Прикладные метрики сервиса dbperf#
Подсистема collector#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
request_processing_time_histogram |
histogram |
По эндпоинтам |
Длительность обработки запроса (с момента поступления запроса до возвращения ответа) |
response_codes_histogram |
histogram |
По эндпоинтам |
Коды ответов |
total_endpoint_calls |
counter |
По эндпоинтам |
Количество обращений к эндпоинту |
total_failed_performance_insight_requests |
counter |
Общее количество завершенных с ошибкой запросов на получение данных о производительности |
|
total_performance_insight_response_by_timeout |
counter |
Общее количество завершенных по таймауту запросов на получение данных о производительности |
|
total_successful_performance_insight_requests |
counter |
Общее количество успешно выполненных запросов на получение данных о производительности |
|
total_validation_failed_performance_insight_requests |
counter |
Общее количество запросов на получение данных о производительности, не прошедших валидацию тела запроса |
Подсистема controller#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
database_maintenance_duration_histogram |
histogram |
По типу внутреннего хранилища («inmemory-db») |
Распределение длительности технического обслуживания внутреннего хранилища данных |
performance_insight_database_execution_duration_histogram |
histogram |
По типу внутреннего хранилища («inmemory-db») |
Распределение длительности получения данных о производительности из внутреннего хранилища |
storage_data_reading_time_histogram |
histogram |
По типу внутреннего хранилища («inmemory-db») |
Время, затраченное на чтение данных из внутреннего хранилища |
asset_connection_attempts_counter |
counter |
По asset |
Количество попыток подключения к asset |
metrics_gathering_time_histogram |
histogram |
По asset |
Время, затраченное на выполнение запроса по сбору метрик с asset |
polling_period_deviation_histogram |
histogram |
По asset |
Отклонение времени опроса asset |
samples_queue_total_size_histogram |
histogram |
По asset |
Количество всех выборок asset, находящихся в очереди на слияние |
samples_queue_merged_size_histogram |
histogram |
По asset |
Количество всех выборок asset из очереди, успевших попасть в хранилище за время слияния |
samples_queue_skipped_size_histogram |
histogram |
По asset |
Количество всех выборок asset из очереди, не успевших попасть в хранилище за время слияния |
scraper_current_connection_status_gauge |
gauge |
По asset |
Текущий статус подключения к asset (1 = connected, 0 = disconnected) |
scrapper_in_use_storage_size_bytes |
gauge |
По asset |
Количество потребляемой памяти текущим asset |
storage_size_limit_bytes |
gauge |
По asset |
Количественное ограничение потребления памяти для asset |
ki_pi_storage_stat_gauge |
gauge |
По asset, по метрикам хранилища (ki_pi*) |
Метрики внутреннего хранилища |
custom_config_parameter |
gauge |
По asset, по индивидуальным параметрам хранения |
Значение параметра хранения для конкретного asset |
collect_sample_pg_stat_activity_durations_histogram |
histogram |
Распределение длительности получения данных из таблицы pg_stat_activity |
|
merge_sample_common_durations_gauge |
gauge |
Текущий уровень общего затраченного времени на запись данных во внутреннее хранилище |
|
merge_sample_counter |
counter |
Количество попыток записи данных во внутреннее хранилище |
|
merge_sample_pg_stat_activity_durations_histogram |
histogram |
Распределение длительности записи данных pg_stat_activity во внутреннее хранилище |
|
total_created_scrapers_counter |
counter |
Общее количество созданных объектов сбора данных из pg_stat_activity |
|
total_deleted_scrapers_counter |
counter |
Общее количество удаленных объектов сбора данных из pg_stat_activity |
|
total_merge_sample_failed |
counter |
Общее количество неуспешных попыток записи данных во внутреннее хранилище |
|
total_merge_sample_quota_limited |
counter |
Общее количество неуспешных попыток записи данных во внутреннее хранилище по причине превышения квоты |
|
total_merge_sample_successful |
counter |
Общее количество успешных попыток записи данных во внутреннее хранилище |
|
total_scrapers_db_connected_counter |
counter |
Общее количество успешных установок соединения с объектами мониторинга |
|
total_scrapers_db_disconnected_counter |
counter |
Общее количество разрыва соединений с объектами мониторинга |
|
total_scrapers_db_instance_updated_counter |
counter |
Общее количество обновлений конфигураций объектов мониторинга |
Подсистема coordinator#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
update_export_config_durations_histogram |
histogram |
Распределение длительности обновления экспортной конфигурации |
|
update_export_config_fail_counter |
counter |
Общее количество успешных обновлений конфигурации |
|
update_export_config_success_counter |
counter |
Общее количество неудачных обновлений конфигурации |
Подсистема limiter#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
concurrent_assets_limit |
gauge |
Максимально возможное количество одновременно взятых в работу asset текущим dbperf |
|
concurrent_assets_gauge |
gauge |
Текущее количество одновременно взятых в работу asset текущим dbperf |
|
failed_asset_acquisition_counter |
counter |
Общее количество неуспешных попыток взятия asset в работу текущим dbperf |
|
free_assets_slots_gauge |
gauge |
Количество свободных слотов для взятия в работу asset текущим dbperf |
|
total_created_concurrent_asset_counter |
counter |
Общее количество взятых в работу asset текущим dbperf |
|
total_removed_concurrent_asset_counter |
counter |
Общее количество освобожденных asset текущим dbperf |
|
total_released_asset_storage_size_bytes |
counter |
Общий освобожденный объем хранилищ в байтах |
|
total_reserved_asset_storage_size_bytes |
counter |
Общий используемый объем хранилища в байтах |
|
released_asset_storage_size_bytes |
gauge |
Текущий освобожденный объем хранилища в байтах |
|
reserved_asset_storage_size_bytes |
gauge |
Текущий используемый объем хранилища в байтах |
|
storage_size_bytes_required_by_failed_assets_counter |
counter |
Требуемый объем хранилища в байтах для взятия asset в работу текущим dbperf |
Подсистема repository#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
total_failed_acquire_advisory_lock_counter |
counter |
Общее количество неудачных попыток наложения рекомендательной блокировки в postgres |
|
total_failed_release_advisory_lock_counter |
counter |
Общее количество неудачных попыток снятия рекомендательной блокировки в postgres |
|
total_failed_sent_notifications_counter |
counter |
Общее количество неудачных попыток отправки нотификации |
|
total_successful_acquire_advisory_lock_counter |
counter |
Общее количество успешных попыток наложения рекомендательной блокировки в postgres |
|
total_successful_release_advisory_lock_counter |
counter |
Общее количество успешных попыток снятия рекомендательной блокировки в postgres |
|
total_successful_sent_notifications_counter |
counter |
Общее количество успешных попыток отправки нотификации |
Прикладные метрики сервиса kmetrics#
Название |
Описание |
|---|---|
websockets_in_flight |
Количество открытых WebSocket-соединений для запросов метрик на данный момент |
websockets_requests_received |
Общее количество полученных валидных запросов по WebSocket-соединениям |
websockets_responses_sent |
Общее количество отправленных ответов по WebSocket-соединениям |
websockets_bytes_received |
Общее количество байт, полученных через WebSocket-соединения |
websockets_bytes_sent |
Общее количество байт, отправленных через WebSocket-соединения |
sources_opened |
Общее количество открытых источников для сбора метрик |
promql_query_success |
Успешно выполненные запросы promql |
promql_query_failure |
Неудавшиеся запросы promql |
promql_query_duration |
Продолжительность выполнения запросов promql |
Прикладные метрики сервиса piface#
Название |
Описание |
|---|---|
http_requests_total |
Количество HTTP-запросов к сервису |
http_request_duration_highr_seconds_bucket |
Распределение длительности выполнения запросов |
Прикладные метрики сервиса tsdbmon#
Название |
Подсистема |
Описание |
|---|---|---|
http_request_duration_ms |
api |
Продолжительность HTTP-запроса в миллисекундах |
requests_total |
query |
Количество запросов на обслуживание |
duration_seconds |
query |
Время, необходимое для ответа на query/ query_batch |
requests_total |
ingest |
Общее количество запросов ingestor |
duration_seconds |
ingest |
Время затрачено (обработка + вставка в БД) на запись выборки |
items_received |
ingest |
Количество полученных образцов |
active_write_requests |
ingest |
Количество активных процессов записи на данный момент |
duplicates_total |
ingest |
Общее количество обработанных выборок / запросов на запись / метрик, с дубликатами |
decompress_calls_total |
ingest |
Общее количество вызовов decompress_chunks_after |
decompress_min_unix_time |
ingest |
Самое раннее время декомпрессии в UNIX-формате |
max_sent_timestamp_milliseconds |
ingest |
Максимальная метка времени для выборок, которые сервис отправляет в БД |
channel_cap |
ingest |
Емкость канала ingest |
channel_len |
ingest |
Длина канала ingest |
flush_series |
ingest |
Количество серий обработанных ingestor |
inserted_total |
ingest |
Общее количество выборок, вставленных в БД |
inserts_per_batch |
ingest |
Количество операций вставок в одной транзакции |
rows_per_batch |
ingest |
Количество строк в одной транзакции |
rows_per_insert |
ingest |
Количество строк, вставленных в один оператор вставки |
insert_duration_seconds |
ingest |
Продолжительность вызовов вставки выборок в БД |
items_total |
ingest |
Общее количество вставленных выборок |
active_connections |
sql_database |
Количество соединений, в настоящее время получаемых из пула-соединений |
total_connections |
sql_database |
Общее количество соединений с БД |
requests_total |
database |
Общее количество запросов к БД |
request_errors_total |
database |
Общее количество ошибок на запросы к БД |
requests_duration_seconds |
database |
Время необходимое для получения данных по запросу и обработки ответа |
Прикладные метрики сервиса mcwatch#
Название |
Описание |
|---|---|
upload_data_to_upstream_duration_sec_histogram |
Гистограмма длительности записанных BAT-файлов в tsdb |
total_time_series_upload_successful_counter |
Общее количество успешных выгруженных данных временных рядов |
total_time_series_upload_failed_counter |
Общее количество неуспешных выгрузок данных временных рядов |
total_time_series_batch_received_counter |
Общее количество полученных BAT-файлов временных рядов |
total_time_series_value_enqueue_for_cmp_successful_counter |
Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для сравнения |
total_time_series_value_enqueue_for_cmp_failed_counter |
Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для сравнения |
total_number_waiting_process_complete_counter |
Общее количество ожиданий завершения процесса |
total_input_ts_data_counter |
Общее количество входных выборок данных временных рядов |
total_internal_ts_data_reply_failed |
Общее количество неудачных внутренних ответов на полученные временные ряды |
total_number_running_process_ts_data |
Общее количество запущенных процессов обработки запросов |
total_input_ts_data_process_successful |
Общее количество запросов с успешной обработкой |
total_input_ts_data_process_failed |
Общее количество запросов с неуспешной обработкой |
time_series_data_processing_duration_histogram |
Общая продолжительность обработки данных временных рядов |
check_appeared_intervals_duration_sec_histogram |
Гистограмма проверки длительности в секундах появившихся интервалов |
total_number_check_appeared_intervals_successful |
Общее количество успешных запросов на получение интервалов пересечений порога |
total_number_check_appeared_intervals_failed |
Общее количество неуспешных запросов на получение интервалов пересечений порога |
read_metrics_threshold_duration_sec_histogram |
Гистограмма запросов на чтение значений порогов в секундах |
total_ping_database_connection_successful_counter |
Общее количество успешных запросов на соединение с БД |
total_ping_database_connection_failed_counter |
Общее количество неуспешных запросов на соединение с БД |
total_refresh_database_connection_counter |
Общее количество запросов на переподключение к БД |
total_missing_required_labels_counter |
Общее количество элементов с недостающими метками |
total_number_read_metric_thresholds_started |
Общее количество запросов на получение значений порогов |
total_number_read_metric_thresholds_failed |
Общее количество неуспешных запросов на получение значений порогов |
total_number_read_metric_thresholds_success |
Общее количество успешных запросов на получение значений порогов |
total_number_write_appeared_episode_failed |
Общее количество неуспешной записи рассчитанного эпизода пересечения значения порога |
total_number_write_appeared_episode_success |
Общее количество успешной записи рассчитанного эпизода пересечения значения порога |
total_number_write_appeared_episode_started |
Общее количество попыток записи рассчитанного эпизода пересечения значения порога |
total_time_series_received_counter |
Общее количество полученных выборок |
http_write_handler_duration_sec_histogram |
Гистограмма длительности выполнения запроса на запись |
total_time_series_batch_enqueue_for_upload_successful_counter |
Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для выгрузки в tsdb |
total_time_series_batch_enqueue_for_upload_failed_counter |
Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для выгрузки tsdb |
total_write_operation_successful_counter |
Общее количество успешных операций сохранения |
total_write_operation_failed_counter |
Общее количество неуспешных операций сохранения |
total_write_operation_counter |
Общее количество операций сохранения |
http_response_json_encode_successful_counter |
Общее количество успешных кодировок ответа |
http_response_json_encode_failed_counter |
Общее количество неуспешных кодировок ответа |
parse_operation_failed_counter |
Общее количество неуспешных попыток парсинга операции |
http_response_timeout_error_counter |
Общее количество неуспешных запросов окончившихся по таймауту |
transmit_time_series_success_counter |
Общее количество успешно записанных выборок в tsdb |
transmit_batch_success_counter |
Общее количество успешно записанных BAT-файлов в tsdb |
Прикладные метрики сервиса inform#
Имя метрики |
Тип метрики |
Описание |
|---|---|---|
inform_poll_dispatcher_performance_waiting_asset_quantity |
Gauge |
Количество ОМ, ожидающих опроса |
inform_poll_dispatcher_performance_polling_asset_quantity |
Gauge |
Количество опрашиваемых ОМ |
inform_poll_dispatcher_performance_storage_asset_quantity |
Gauge |
Количество ОМ, ожидающих операции с хранилищем |
inform_poll_dispatcher_general_stat_poll_in_time_count |
Counter |
Общее количество опросов вовремя |
inform_poll_dispatcher_general_stat_poll_late_count |
Counter |
Общее количество опросов с опозданием |
inform_poll_dispatcher_general_stat_poll_late_sec |
Gauge |
Общее опоздание опроса в секундах |
inform_poll_dispatcher_general_stat_poll_period_sec |
Gauge |
Общий период опроса в секундах |
inform_poll_dispatcher_general_stat_fact_plan_poll_period_diff_sec |
Gauge |
Общая разница в секундах между спланированных период опроса и фактическим периодом опроса |
inform_poll_dispatcher_general_stat_fact_read_overview_metrics_sec |
Gauge |
Общее время сбора метрик с ОМ |
inform_asset_id_poll_stat_poll_in_time_count |
Counter |
Количество опросов вовремя по каждому ОМ |
inform_asset_id_poll_stat_poll_late_count |
Counter |
Количество опросов с опозданием по каждому ОМ |
inform_asset_id_poll_stat_poll_late_sec |
Gauge |
Опоздание опроса в секундах по каждому ОМ |
inform_asset_id_poll_stat_poll_period_sec |
Gauge |
Период опроса в секундах по каждому ОМ |
inform_asset_id_poll_stat_fact_plan_poll_period_diff_sec |
Gauge |
Разница в секундах между спланированных период опроса и фактическим периодом опроса по каждому ОМ |
inform_asset_id_poll_stat_fact_read_overview_metrics_sec |
Gauge |
Прикладные метрики сервиса audit proxy#
Название |
Описание |
|---|---|
model_already_relayed_counter |
Количество ненужных регистраций метамодели аудита (метамодель была зарегистрирована ранее) |
model_relayed_success_counter |
Количество регистраций метамодели аудита, завершившихся успешно |
model_relay_failed_counter |
Количество регистраций метамодели аудита, завершившихся ошибкой |
Прикладные метрики сервиса dbterm#
Название |
Описание |
|---|---|
database_connections_gauge |
Количество объектов обработки активных соединений к контролируемым БД |
http_request_counter |
Количество полученных HTTP-запросов |
protocol_handlers_gauge |
Количество обработки активных сессий |
total_database_broken_connection_counter |
Количество разорванных соединений к контролируемым БД |
total_database_established_connection_counter |
Количество успешных подключений к контролируемым БД |
total_failed_protocol_handshake_counter |
Количество неустановленных соединений, у которых ошибка произошла на этапе «рукопожатия» |
total_successful_protocol_handshake_counter |
Количество установленных соединений на этапе «рукопожатия» |
total_ws_session_abnormal_closed_counter |
Количество завершенных нештатным образом сессий WebSocket |
total_ws_session_closed_counter |
Количество планово завершенных сессий WebSocket |
total_ws_session_deadline_exceed_counter |
Количество завершенных сессий, восстановленных не по инициативе клиента |
total_ws_session_restore_failed_counter |
Количество невосстановленных сессий |
total_ws_session_restore_success_counter |
Количество успешно восстановленных сессий |
total_ws_terminated_counter |
Количество завершенных сессий |
transport_completed_connections_counter |
Количество обработчиков, завершивших работу транспортного уровня |
transport_running_connections_counter |
Количество активных обработчиков транспортного уровня |
ws_connection_accepted_counter |
Количество принятых WebSocket-соединений |
ws_connection_rejected_counter |
Количество отклоненных WebSocket-соединений |
ws_connection_unaccepted_counter |
Количество непринятых WebSocket-соединений в следствии ошибки |
Прикладные метрики сервиса AgentWay#
Название |
Тип |
Описание |
|---|---|---|
agent_sessions_in_progress_gauge |
gauge |
Количество установленных соединений от агента в настоящий момент времени |
total_number_accepted_agent_sessions |
counter |
Количество принятых соединений от агента |
total_number_declined_agent_sessions |
counter |
Количество отклоненных соединений от агента |
total_number_released_agent_sessions |
counter |
Количество завершенных соединений с агентом |
total_number_handshake_failed |
counter |
Количество неуспешно установленных соединений на этапе handshake |
total_number_handshake_successful |
counter |
Количество успешно установленных соединений на этапе handshake |
total_number_measurement_reports_received |
counter |
Количество принятых сообщений с информацией о выборках (CPU,memory) |
total_number_scanner_reports_received |
counter |
Количество принятых сообщений с информацией об обнаруженных СУБД агентом |
producer_raw_samples_received |
counter |
Количество принятых выборок для создания метрик в системе |
total_number_metrics_created |
counter |
Количество созданных метрик из выборок |
total_number_metrics_passed_to_uploader |
counter |
Количество переданных метрик для выгрузки в систему |
number_detected_dbms_objects_gauge |
gauge |
Количество известных и зарегистрированных СУБД в системе |
total_number_failed_updated_dbms_objects |
counter |
Количество неудачных попыток обновления информации об СУБД |
total_number_successful_updated_dbms_objects |
counter |
Количество удачных попыток обновления информации об СУБД |
total_number_successful_cleanup_storage_operations |
counter |
Количество успешных попыток очистки данных об обнаруженных СУБД |
total_number_received_bytes_from_asset_source |
counter |
Количество полученных байт из сервиса-владельца информации об assets |
total_number_update_metadata_failed |
counter |
Количество неуспешных попыток получения meta информации |
total_number_update_metadata_successful |
counter |
Количество успешных попыток получения meta информации |
total_number_successful_uploaded_bytes |
counter |
Количество успешно выгруженных байт из сервиса в систему метрик |
total_number_failed_uploaded_bytes |
counter |
Количество неуспешно выгруженных байт из сервиса в систему метрик |
assets_metadata_update_time_duration_histo_bucket |
histo |
Гистограмма распределения длительности получения метаданных из сервиса curator |
failures_to_upload_counter |
counter |
Количество неуспешных попыток записи метрик в систему |
successful_uploads_counter |
counter |
Количество успешных попыток записи метрик в систему |
number_acquired_advisory_locks |
gauge |
Количество успешно захваченных рекомендательных блокировок для агентской сессии |
number_advisory_locks_cache_gauge |
gauge |
Общее количество объектов в кеше для взятия блокировки(все существующие состояния) |
number_advisory_locks_release_needed_gauge |
gauge |
Общее количество объектов ожидающих высвобождение рекомендательной блокировки |
number_advisory_locks_released_gauge |
gauge |
Общее количество объектов освободивших рекомендательную блокировку за последнее обновление |
number_ready_for_advisory_locks_gauge |
gauge |
Общее количество объектов готовых к взятию рекомендательной блокировки |
number_detected_dbms_objects_gauge |
gauge |
Текущее количество обнаруженных СУБД всеми агентами Kintsugi |
total_number_acquire_lock_failed_and_finish_session |
counter |
Общее количество блокировок в результате которых сессия агента была завершена |
total_number_attempt_to_update_advisory_locks |
counter |
Количество попыток обновления рекомендательных блокировок(все блокировки обновляются одновременно) |
total_number_deferred_reports |
counter |
Количество полученных отчетов со стороны агента которые были отложены для обработки по причине отсутствия рекомендательной блокировки |
total_number_failed_cleanup_storage_operations |
counter |
Количество неудачных попыток очистить хранилище объектов |
total_number_failed_updated_dbms_objects |
counter |
Количество неудачных попыток обновления списка объектов СУБД |
total_number_prepared_metrics_failed_for_uploading_counter |
counter |
Количество не обработанных метрик в формате Prometheus |
total_number_prepared_metrics_for_uploading_counter |
counter |
Количество обработанных метрик в формате Prometheus |
total_number_protocol_acquire_lock_failed |
counter |
Количество неудачных попыток получения рекомендательной блокировки на уровне обработки протокола |
total_number_protocol_acquire_lock_successful |
counter |
Количество успешных попыток получения рекомендательной блокировки на уровне обработки протокола |
total_number_received_metrics_for_uploading_counter |
counter |
Количество полученных готовых метрик для дальнейшей выгрузки в систему |
total_number_reports_processed_failed |
counter |
Количество неуспешно обработанных отчетов на уровне протокола взаимодействия с агентом |
total_number_reports_processed_successful |
counter |
Количество успешно обработанных отчетов на уровне протокола взаимодействия с агентом |
total_number_req_received_for_acquire_advisory_locks |
counter |
Количество полученных запросов на получение рекомендательной блокировки |
total_number_update_advisory_locks_collision |
counter |
Количество полученных коллизий при попытке обновления списка рекомендательных блокировок |
total_number_update_successful_advisory_locks |
counter |
Количество обновлений списка рекомендательных блокировок завершенных успешно |
total_number_update_failed_advisory_locks |
counter |
Количество обновлений списка рекомендательных блокировок завершенных с ошибкой |
total_number_update_metadata_failed |
counter |
Количество обновлений информации об assets завершенных с ошибкой(запрос в сервис curator) |
total_number_update_metadata_successful |
counter |
Количество обновлений информации об assets завершенных успешно(запрос в сервис curator) |
upload_duration_histogram |
histogram |
Гистограмма распределения длительности времени затраченного на выгрузку метрик в систему |
total_number_db_check_connection_successful |
counter |
Количество проверок целостности сетевого соединения с СУБД завершенных успешно |
total_number_db_check_connection_failed |
counter |
Количество проверок целостности сетевого соединения с СУБД завершенных c ошибкой |
total_number_db_connection_attempts |
counter |
Количество попыток установления сетевого соединения с СУБД |
total_number_db_connection_not_established |
counter |
Количество успешно установленных соединений с СУБД |
total_number_db_connection_established_successful |
counter |
Количество попыток установления соединения с СУБД завершенных ошибкой |
Прикладные метрики сервиса scheduler#
Название |
Тип |
Лейблы |
Описание |
|---|---|---|---|
tasks_count |
counter |
По типам и статусам задач |
Количество задач (статусы и типы) |
task_queue_time_histogram |
histogram |
По типам задач |
Длительность нахождения задачи в очереди на выполнение |
task_preprocessing_time_histogram |
histogram |
По типам задач |
Длительность подготовки задачи к исполнению |
ws_connections_gauge |
gauge |
По этапам (open, work, close) |
Количество открытых WS соединений в данный момент |
ws_connection_time_histogram |
histogram |
По этапам (open, work, close) |
Время нахождения WS соединений на разных этапах |
task_backend_time_histogram |
histogram |
По типам задач |
Длительность выполнения задачи с момента отправки в backend и до получения результата |
task_db_time_histogram |
histogram |
По типам задач |
Длительность выполнения запроса задачи в БД |
task_result_processing_time_histogram |
histogram |
По типам задач |
Длительность обработки результата задачи |
task_artifact_save_time_histogram |
histogram |
По типам задач |
Длительность записи артефакта задачи в хранилище |
task_artifact_size_histogram |
histogram |
По типам задач |
Размер артефакта |
task_artifacts_count_histogram |
histogram |
По типам задач |
Количество артефактов на задачу |
task_delete_time_histogram |
histogram |
По типам задач |
Длительность удаления задачи |
storage_size_gauge |
gauge |
Размер хранилища |
|
storage_size_cleaned_histogram |
histogram |
Размер данных, удаленных из хранилища фоновых процессом очистки |
Прикладные метрики сервиса alerting#
Название |
Тип |
Описание |
|---|---|---|
requests_total |
Counter |
Общее количество запросов к mcwatch |
reports_total |
Counter |
Общее количество отправленных отчетов |
transition_events_total |
Counter |
Общее количество событий перехода |
completed_mc_transaction_total |
Counter |
Число сформированных отчетов от mcwatch |
start_current_inteval |
Gauge |
Начало текущего интервала |
interval_width |
Gauge |
Ширина текущего интервала |
kafka_send_latency |
Gauge |
Задержка отправки сообщений в Kafka |