Мониторинг#
Все сервисы Kintsugi (DBCM) публикуют прикладные метрики в формате Prometheus.
Для описания системных метрик используется их конечное представление в среде визуализации Grafana. Шаблоны конфигурации панелей мониторинга Grafana описаны в пункте «Системный мониторинг» раздела «Настройка интеграции» в «Руководстве по установке».
Для сбора и хранения информации о системных метриках используется система мониторинга Platform V Monitor (OPM): Объединенный мониторинг Unimon (MONA).
Настройка#
Platform V Kintsugi (DBM) редакции Enterprise не имеет собственные встроенные средства мониторинга.
Метрики#
Прикладные метрики сервиса backend#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество HTTP-запросов к сервису |
|
|
|
Распределение длительности выполнения запросов |
|
|
Прикладные метрики сервиса collector#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Гистограмма длительности запросов к кеш |
|
|
|
Количество попыток выгрузки метрик в хранилище, завершившихся ошибкой |
|
|
|
Количество метрик в ожидании обработки |
|
|
|
Коэффициент ошибок при обработке метрик |
|
|
|
Среднее время обработки метрик |
|
|
|
Временная метка получения метрик |
|
|
|
Среднее время загрузки метрик |
|
|
|
Количество скреперов, собирающих метрики из соединений с БД |
|
|
|
Количество выполнения запросов на снятие метрик, завершившихся успешно |
|
|
|
Количество выполнения запросов на снятие метрик, завершившихся ошибкой |
|
|
|
Размер кеш SQLite |
|
|
|
Количество попыток выгрузки метрик в хранилище, завершившихся успешно |
|
|
|
Общее количество байтов, которые не были загружены |
|
|
|
Общее количество подготовленных, но не загруженных метрик |
|
|
|
Общее количество подготовленных метрик для загрузки |
|
|
|
Общее количество успешно загруженных байтов |
|
|
|
Количество уникальных метрик обработанных за период |
|
|
|
Распределение длительности обновления конфигурации наблюдаемых БД |
|
|
|
Количество завершенных ошибкой обновлений конфигурации наблюдаемых БД |
|
|
|
Количество успешно завершенных обновлений конфигурации наблюдаемых БД |
|
|
|
Длительность процедур сбрасывания метрик в хранилище метрик |
|
|
|
Гистограмма длительности обработки выборки |
|
|
|
Количество агрегированных выборок |
|
|
Прикладные метрики сервиса curator#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество HTTP-запросов к сервису |
|
|
|
Распределение длительности выполнения запросов |
|
|
|
Распределение длительности выполнения запросов к интерфейсу templates |
|
|
|
Распределение длительности выполнения запросов к интерфейсу cluster |
|
|
Прикладные метрики сервиса dbperf#
Подсистема collector#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Длительность обработки запроса (с момента поступления запроса до возвращения ответа) |
|
|
|
Коды ответов |
|
|
|
Количество обращений к эндпоинту |
|
|
|
Общее количество завершенных с ошибкой запросов на получение данных о производительности |
|
|
|
Общее количество завершенных по таймауту запросов на получение данных о производительности |
|
|
|
Общее количество успешно выполненных запросов на получение данных о производительности |
|
|
|
Общее количество запросов на получение данных о производительности, не прошедших валидацию тела запроса |
|
|
Подсистема controller#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Распределение длительности технического обслуживания внутреннего хранилища данных |
|
|
|
Распределение длительности получения данных о производительности из внутреннего хранилища |
|
|
|
Время, затраченное на чтение данных из внутреннего хранилища |
|
|
|
Количество попыток подключения к asset |
|
|
|
Время, затраченное на выполнение запроса по сбору метрик с asset |
|
|
|
Отклонение времени опроса asset |
|
|
|
Количество всех выборок asset, находящихся в очереди на слияние |
|
|
|
Количество всех выборок asset из очереди, успевших попасть в хранилище за время слияния |
|
|
|
Количество всех выборок asset из очереди, не успевших попасть в хранилище за время слияния |
|
|
|
Текущий статус подключения к asset (1 = connected, 0 = disconnected) |
|
|
|
Количество потребляемой памяти текущим asset |
|
|
|
Количественное ограничение потребления памяти для asset |
|
|
|
Метрики внутреннего хранилища |
|
|
|
Значение параметра хранения для конкретного asset |
|
|
|
Распределение длительности получения данных из таблицы pg_stat_activity |
|
|
|
Текущий уровень общего затраченного времени на запись данных во внутреннее хранилище |
|
|
|
Количество попыток записи данных во внутреннее хранилище |
|
|
|
Распределение длительности записи данных pg_stat_activity во внутреннее хранилище |
|
|
|
Общее количество созданных объектов сбора данных из pg_stat_activity |
|
|
|
Общее количество удаленных объектов сбора данных из pg_stat_activity |
|
|
|
Общее количество неуспешных попыток записи данных во внутреннее хранилище |
|
|
|
Общее количество неуспешных попыток записи данных во внутреннее хранилище по причине превышения квоты |
|
|
|
Общее количество успешных попыток записи данных во внутреннее хранилище |
|
|
|
Общее количество успешных установок соединения с объектами мониторинга |
|
|
|
Общее количество разрыва соединений с объектами мониторинга |
|
|
|
Общее количество обновлений конфигураций объектов мониторинга |
|
|
Подсистема coordinator#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Распределение длительности обновления экспортной конфигурации |
|
|
|
Общее количество успешных обновлений конфигурации |
|
|
|
Общее количество неудачных обновлений конфигурации |
|
|
Подсистема limiter#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Максимально возможное количество одновременно взятых в работу asset текущим dbperf |
|
|
|
Текущее количество одновременно взятых в работу asset текущим dbperf |
|
|
|
Общее количество неуспешных попыток взятия asset в работу текущим dbperf |
|
|
|
Количество свободных слотов для взятия в работу asset текущим dbperf |
|
|
|
Общее количество взятых в работу asset текущим dbperf |
|
|
|
Общее количество освобожденных asset текущим dbperf |
|
|
|
Общий освобожденный объем хранилищ |
|
|
|
Общий используемый объем хранилища |
|
|
|
Текущий освобожденный объем хранилища |
|
|
|
Текущий используемый объем хранилища |
|
|
|
Требуемый объем хранилища для взятия asset в работу текущим dbperf |
|
|
Подсистема repository#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество неудачных попыток наложения рекомендательной блокировки в PostgreSQL |
|
|
|
Общее количество неудачных попыток снятия рекомендательной блокировки в PostgreSQL |
|
|
|
Общее количество неудачных попыток отправки нотификации |
|
|
|
Общее количество успешных попыток наложения рекомендательной блокировки в PostgreSQL |
|
|
|
Общее количество успешных попыток снятия рекомендательной блокировки в PostgreSQL |
|
|
|
Общее количество успешных попыток отправки нотификации |
|
|
Прикладные метрики сервиса kmetrics#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество открытых WebSocket-соединений для запросов метрик на данный момент |
|
|
|
Общее количество полученных валидных запросов по WebSocket-соединениям |
|
|
|
Общее количество отправленных ответов по WebSocket-соединениям |
|
|
|
Общее количество байт, полученных через WebSocket-соединения |
|
|
|
Общее количество байт, отправленных через WebSocket-соединения |
|
|
|
Общее количество открытых источников для сбора метрик |
|
|
|
Успешно выполненные запросы PromQL |
|
|
|
Неудавшиеся запросы PromQL |
|
|
|
Продолжительность выполнения запросов PromQL |
|
|
Прикладные метрики сервиса piface#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество HTTP-запросов к сервису |
|
|
|
Распределение длительности выполнения запросов |
|
|
Прикладные метрики сервиса tsdbmon#
Название |
Подсистема |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|---|
|
|
Продолжительность HTTP-запроса в миллисекундах |
|
|
|
|
Количество запросов на обслуживание |
|
|
|
|
Время, необходимое для ответа на query/ query_batch |
|
|
|
|
Общее количество запросов ingestor |
|
|
|
|
Время затрачено (обработка + вставка в БД) на запись выборки |
|
|
|
|
Количество полученных образцов |
|
|
|
|
Количество активных процессов записи на данный момент |
|
|
|
|
Общее количество обработанных выборок / запросов на запись / метрик, с дубликатами |
|
|
|
|
Общее количество вызовов decompress_chunks_after |
|
|
|
|
Самое раннее время декомпрессии в UNIX-формате |
|
|
|
|
Максимальная метка времени для выборок, которые сервис отправляет в БД |
|
|
|
|
Емкость канала ingest |
|
|
|
|
Длина канала ingest |
|
|
|
|
Количество серий обработанных ingestor |
|
|
|
|
Общее количество выборок, вставленных в БД |
|
|
|
|
Количество операций вставок в одной транзакции |
|
|
|
|
Количество строк в одной транзакции |
|
|
|
|
Количество строк, вставленных в один оператор вставки |
|
|
|
|
Продолжительность вызовов вставки выборок в БД |
|
|
|
|
Общее количество вставленных выборок |
|
|
|
|
Количество соединений, в настоящее время получаемых из пула-соединений |
|
|
|
|
Общее количество соединений с БД |
|
|
|
|
Общее количество запросов к БД |
|
|
|
|
Общее количество ошибок на запросы к БД |
|
|
|
|
Время необходимое для получения данных по запросу и обработки ответа |
|
|
Прикладные метрики сервиса mcwatch#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Гистограмма длительности записанных BAT-файлов в tsdb |
|
|
|
Общее количество успешных выгруженных данных временных рядов |
|
|
|
Общее количество неуспешных выгрузок данных временных рядов |
|
|
|
Общее количество полученных BAT-файлов временных рядов |
|
|
|
Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для сравнения |
|
|
|
Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для сравнения |
|
|
|
Общее количество ожиданий завершения процесса |
|
|
|
Общее количество входных выборок данных временных рядов |
|
|
|
Общее количество неудачных внутренних ответов на полученные временные ряды |
|
|
|
Общее количество запущенных процессов обработки запросов |
|
|
|
Общее количество запросов с успешной обработкой |
|
|
|
Общее количество запросов с неуспешной обработкой |
|
|
|
Общая продолжительность обработки данных временных рядов |
|
|
|
Гистограмма проверки длительности появившихся интервалов |
|
|
|
Общее количество успешных запросов на получение интервалов пересечений порога |
|
|
|
Общее количество неуспешных запросов на получение интервалов пересечений порога |
|
|
|
Гистограмма запросов на чтение значений порогов |
|
|
|
Общее количество успешных запросов на соединение с БД |
|
|
|
Общее количество неуспешных запросов на соединение с БД |
|
|
|
Общее количество запросов на переподключение к БД |
|
|
|
Общее количество элементов с недостающими метками |
|
|
|
Общее количество запросов на получение значений порогов |
|
|
|
Общее количество неуспешных запросов на получение значений порогов |
|
|
|
Общее количество успешных запросов на получение значений порогов |
|
|
|
Общее количество неуспешной записи рассчитанного эпизода пересечения значения порога |
|
|
|
Общее количество успешной записи рассчитанного эпизода пересечения значения порога |
|
|
|
Общее количество попыток записи рассчитанного эпизода пересечения значения порога |
|
|
|
Общее количество полученных выборок |
|
|
|
Гистограмма длительности выполнения запроса на запись |
|
|
|
Общее количество BAT-файлов временных рядов, успешно поставленных в очередь для выгрузки в tsdb |
|
|
|
Общее количество BAT-файлов временных рядов, неуспешно поставленных в очередь для выгрузки tsdb |
|
|
|
Общее количество успешных операций сохранения |
|
|
|
Общее количество неуспешных операций сохранения |
|
|
|
Общее количество операций сохранения |
|
|
|
Общее количество успешных кодировок ответа |
|
|
|
Общее количество неуспешных кодировок ответа |
|
|
|
Общее количество неуспешных попыток парсинга операции |
|
|
|
Общее количество неуспешных запросов окончившихся по таймауту |
|
|
|
Общее количество успешно записанных выборок в tsdb |
|
|
|
Общее количество успешно записанных BAT-файлов в tsdb |
|
|
Прикладные метрики сервиса inform#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество ОМ, ожидающих опроса |
|
|
|
Количество опрашиваемых ОМ |
|
|
|
Количество ОМ, ожидающих операции с хранилищем |
|
|
|
Общее количество опросов вовремя |
|
|
|
Общее количество опросов с опозданием |
|
|
|
Общее опоздание опроса |
|
|
|
Общий период опроса |
|
|
|
Общая разница между спланированных период опроса и фактическим периодом опроса |
|
|
|
Общее время сбора метрик с ОМ |
|
|
|
Количество опросов вовремя по каждому ОМ |
|
|
|
Количество опросов с опозданием по каждому ОМ |
|
|
|
Опоздание опроса по каждому ОМ |
|
|
|
Период опроса по каждому ОМ |
|
|
|
Разница между спланированных период опроса и фактическим периодом опроса по каждому ОМ |
|
|
|
Время сбора метрик с ОМ по каждому ОМ |
|
|
Прикладные метрики сервиса audit proxy#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество ненужных регистраций метамодели аудита (метамодель была зарегистрирована ранее) |
|
|
|
Количество регистраций метамодели аудита, завершившихся успешно |
|
|
|
Количество регистраций метамодели аудита, завершившихся ошибкой |
|
|
Прикладные метрики сервиса dbterm#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество объектов обработки активных соединений к контролируемым БД |
|
|
|
Количество полученных HTTP-запросов |
|
|
|
Количество обработки активных сессий |
|
|
|
Количество разорванных соединений к контролируемым БД |
|
|
|
Количество успешных подключений к контролируемым БД |
|
|
|
Количество неустановленных соединений, у которых ошибка произошла на этапе «рукопожатия» |
|
|
|
Количество установленных соединений на этапе «рукопожатия» |
|
|
|
Количество завершенных нештатным образом сессий WebSocket |
|
|
|
Количество планово завершенных сессий WebSocket |
|
|
|
Количество завершенных сессий, восстановленных не по инициативе клиента |
|
|
|
Количество невосстановленных сессий |
|
|
|
Количество успешно восстановленных сессий |
|
|
|
Количество завершенных сессий |
|
|
|
Количество обработчиков, завершивших работу транспортного уровня |
|
|
|
Количество активных обработчиков транспортного уровня |
|
|
|
Количество принятых WebSocket-соединений |
|
|
|
Количество отклоненных WebSocket-соединений |
|
|
|
Количество непринятых WebSocket-соединений в следствии ошибки |
|
|
Прикладные метрики сервиса AgentWay#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество установленных соединений от агента в настоящий момент времени |
|
|
|
Количество принятых соединений от агента |
|
|
|
Количество отклоненных соединений от агента |
|
|
|
Количество завершенных соединений с агентом |
|
|
|
Количество неуспешно установленных соединений на этапе handshake |
|
|
|
Количество успешно установленных соединений на этапе handshake |
|
|
|
Количество принятых сообщений с информацией о выборках (CPU,memory) |
|
|
|
Количество принятых сообщений с информацией об обнаруженных СУБД агентом |
|
|
|
Количество принятых выборок для создания метрик в системе |
|
|
|
Количество созданных метрик из выборок |
|
|
|
Количество переданных метрик для выгрузки в систему |
|
|
|
Количество известных и зарегистрированных СУБД в системе |
|
|
|
Количество неудачных попыток обновления информации об СУБД |
|
|
|
Количество удачных попыток обновления информации об СУБД |
|
|
|
Количество успешных попыток очистки данных об обнаруженных СУБД |
|
|
|
Количество полученных байт из сервиса-владельца информации об assets |
|
|
|
Количество неуспешных попыток получения meta информации |
|
|
|
Количество успешных попыток получения meta информации |
|
|
|
Количество успешно выгруженных байт из сервиса в систему метрик |
|
|
|
Количество неуспешно выгруженных байт из сервиса в систему метрик |
|
|
|
Гистограмма распределения длительности получения метаданных из сервиса curator |
|
|
|
Количество неуспешных попыток записи метрик в систему |
|
|
|
Количество успешных попыток записи метрик в систему |
|
|
|
Количество успешно захваченных рекомендательных блокировок для агентской сессии |
|
|
|
Общее количество объектов в кеше для взятия блокировки (все существующие состояния) |
|
|
|
Общее количество объектов, ожидающих высвобождение рекомендательной блокировки |
|
|
|
Общее количество объектов, освободивших рекомендательную блокировку за последнее обновление |
|
|
|
Общее количество объектов, готовых к взятию рекомендательной блокировки |
|
|
|
Текущее количество обнаруженных СУБД всеми агентами Kintsugi |
|
|
|
Количество блокировок, в результате которых сессия агента была завершена |
|
|
|
Количество попыток обновления рекомендательных блокировок (все блокировки обновляются одновременно) |
|
|
|
Количество полученных отчетов со стороны агента, которые были отложены для обработки по причине отсутствия рекомендательной блокировки |
|
|
|
Количество неудачных попыток очистить хранилище объектов |
|
|
|
Количество неудачных попыток обновления списка объектов СУБД |
|
|
|
Количество не обработанных метрик в формате Prometheus |
|
|
|
Количество обработанных метрик в формате Prometheus |
|
|
|
Количество неудачных попыток получения рекомендательной блокировки на уровне обработки протокола |
|
|
|
Количество успешных попыток получения рекомендательной блокировки на уровне обработки протокола |
|
|
|
Количество полученных готовых метрик для дальнейшей выгрузки в систему |
|
|
|
Количество неуспешно обработанных отчетов на уровне протокола взаимодействия с агентом |
|
|
|
Количество успешно обработанных отчетов на уровне протокола взаимодействия с агентом |
|
|
|
Количество полученных запросов на получение рекомендательной блокировки |
|
|
|
Количество полученных коллизий при попытке обновления списка рекомендательных блокировок |
|
|
|
Количество обновлений списка рекомендательных блокировок, завершенных успешно |
|
|
|
Количество обновлений списка рекомендательных блокировок, завершенных с ошибкой |
|
|
|
Количество обновлений информации об assets, завершенных с ошибкой (запрос в сервис curator) |
|
|
|
Количество обновлений информации об assets, завершенных успешно (запрос в сервис curator) |
|
|
|
Гистограмма распределения длительности времени, затраченного на выгрузку метрик в систему |
|
|
|
Количество проверок целостности сетевого соединения с СУБД, завершенных успешно |
|
|
|
Количество проверок целостности сетевого соединения с СУБД, завершенных с ошибкой |
|
|
|
Количество попыток установления сетевого соединения с СУБД |
|
|
|
Количество успешно установленных соединений с СУБД |
|
|
|
Количество попыток установления соединения с СУБД, завершенных ошибкой |
|
|
Прикладные метрики сервиса scheduler#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Количество задач (статусы и типы) |
|
|
|
Длительность нахождения задачи в очереди на выполнение |
|
|
|
Длительность подготовки задачи к исполнению |
|
|
|
Количество открытых WS соединений в данный момент |
|
|
|
Время нахождения WS соединений на разных этапах |
|
|
|
Длительность выполнения задачи с момента отправки в backend и до получения результата |
|
|
|
Длительность выполнения запроса задачи в БД |
|
|
|
Длительность обработки результата задачи |
|
|
|
Длительность записи артефакта задачи в хранилище |
|
|
|
Размер артефакта |
|
|
|
Количество артефактов на задачу |
|
|
|
Длительность удаления задачи |
|
|
|
Размер хранилища |
|
|
|
Размер данных, удаленных из хранилища фоновыми процессами очистки |
|
|
Прикладные метрики сервиса alerting#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество запросов к mcwatch |
|
|
|
Общее количество отправленных отчетов |
|
|
|
Общее количество событий перехода |
|
|
|
Число сформированных отчетов от mcwatch |
|
|
|
Начало текущего интервала |
|
|
|
Ширина текущего интервала |
|
|
|
Задержка отправки сообщений в Kafka |
|
|
Прикладные метрики сервиса configman#
HTTP API — Запросы к API сервиса#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество GET-запросов к API для получения конфигурации |
|
|
|
Количество успешных GET-запросов к API для получения конфигурации |
|
|
|
Количество неудачных GET-запросов к API для получения конфигурации |
|
|
|
Время выполнения GET-запросов к API для получения конфигурации |
|
|
|
Общее количество SET-запросов к API для установки конфигурации |
|
|
|
Количество успешных SET-запросов к API для установки конфигурации |
|
|
|
Количество неудачных SET-запросов к API для установки конфигурации |
|
|
|
Время выполнения SET-запросов к API для установки конфигурации |
|
|
|
Общее количество запросов к API для валидации конфигурации |
|
|
|
Количество успешных запросов к API для валидации конфигурации |
|
|
|
Количество неудачных запросов к API для валидации конфигурации |
|
|
|
Время выполнения запросов к API для валидации конфигурации |
|
|
|
Общее количество запросов к API для получения рекомендаций |
|
|
|
Количество успешных запросов к API для получения рекомендаций |
|
|
|
Количество неудачных запросов к API для получения рекомендаций |
|
|
|
Время выполнения запросов к API для получения рекомендаций |
|
|
Взаимодействие с сервисом Backend — Операции внутри сервиса#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество операций получения конфигурации из сервиса Backend |
|
|
|
Количество успешных операций получения конфигурации из сервиса Backend |
|
|
|
Количество неудачных операций получения конфигурации из сервиса Backend |
|
|
|
Время выполнения операций получения конфигурации из сервиса Backend |
|
|
|
Общее количество операций отправки конфигурации в сервис Backend |
|
|
|
Количество успешных промежуточных (stage) операций отправки конфигурации в сервис Backend |
|
|
|
Количество неудачных промежуточных (stage) операций отправки конфигурации в сервис Backend |
|
|
|
Время выполнения промежуточных (stage) операций отправки конфигурации в сервис Backend |
|
|
|
Общее время выполнения полной операции отправки конфигурации в сервис Backend |
|
|
|
Количество успешных операций обновления (refresh) конфигурации |
|
|
|
Количество неудачных операций обновления (refresh) конфигурации |
|
|
|
Время выполнения операций обновления (refresh) конфигурации |
|
|
Валидация — Внутренние операции валидации#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество внутренних запросов на валидацию конфигурации |
|
|
|
Количество успешных внутренних запросов на валидацию конфигурации |
|
|
|
Количество неудачных внутренних запросов на валидацию конфигурации |
|
|
|
Время выполнения внутренних запросов на валидацию конфигурации |
|
|
Рекомендации — Внутренние операции получения рекомендаций#
Название |
Описание |
Размерность |
Основные атрибуты |
|---|---|---|---|
|
Общее количество внутренних запросов на получение рекомендаций |
|
|
|
Количество успешных внутренних запросов на получение рекомендаций |
|
|
|
Количество неудачных внутренних запросов на получение рекомендаций |
|
|
|
Время выполнения внутренних запросов на получение рекомендаций |
|
|