События мониторинга#

Микросервисы предоставляют метрики в формате Prometheus. Метрики собираются с помощью Prometheus-агента (Cote-agent) и доставляются с помощью средств Platform V Monitor (OPM).

Системные метрики#

N

Метрика

Название метрики

Тип метрики

Дашборд

1

system_cpu_count

Количество запущенных pod

Сounter

Running PODs

2

system_cpu_usage

Процент использования ЦПУ системой

Gauge

System CPU usage

3

process_cpu_usage

Процент использования ЦПУ процессом

Gauge

Process CPU usage

4

jvm_threads_live_threads

Количество потоков

Сounter

Threads

5

jvm_threads_daemon_threads

Количество потоков

Сounter

Threads

6

jvm_threads_states_threads

Количество потоков

Сounter

Threads

7

jvm_memory_used_bytes

JVM memory used

Сounter

Memory used

8

jvm_buffer_memory_used_bytes

JVM buffer memory used

Сounter

Buffer memory used

9

jvm_memory_committed_bytes

JVM memory committed

Сounter

Memory committed

10

application_started_time_seconds

Время запуска приложения

Timer

Startup time

11

http_server_requests_seconds_count

Количество запросов

Сounter

Requests count

12

http_server_requests_seconds_sum

Время выполнения запросов

Timer

Requests time

13

hikaricp_connections

HikariCP Total Connections

Сounter

HikariCP Total Connections

14

hikaricp_connections_idle

HikariCP Idle Connections

Сounter

HikariCP Idle Connections

15

hikaricp_connections_active

HikariCP Active Connections

Сounter

HikariCP Active Connections

16

hikaricp_connections_pending

HikariCP Threads Pending Connections

Сounter

HikariCP Threads Pending Connections

Бизнес метрики#

N

Метрика

Название метрики

Тип метрики

Описание метрики

Дашборд

1

cote_pipeline_active_count

Количество активных pipeline

Gauge

Количество pipeline, которые запускались в течение предыдущей минуты.

Количество активных pipeline

2

cote_pipeline_error_count_total

Количество ошибок при работе pipeline

Counter

Количество ошибок при работе pipeline

Количество ошибок при работе pipeline

3

cote_pipeline_execute_total_seconds_max, cote_pipeline_execute_total_seconds_count, cote_pipeline_execute_total_seconds_max

Время работы pipeline и количество запусков

Timer

Время работы pipeline (от момента запуска pipeline до момента отправки результата)

Время работы pipeline

4

cote_pipeline_message_count_total

Количество сообщений, обработанных pipeline

Counter

Количество сообщений обработанных pipeline

Количество обработанных сообщений pipeline

5

cote_pipeline_message_execute_avg

Среднее время обработки сообщения pipeline

Gauge

Общее время обработки сообщений pipeline, разделенное на количество обработанных сообщений.

Среднее время обработки сообщения pipeline

6

cote_component_error_count_total

Количество ошибок при работе компонента

Counter

Количество ошибок при работе компонента

Количество запусков компонента

7

cote_component_execute_seconds_max, cote_component_execute_seconds_sum, cote_component_execute_seconds_count

Время работы и количество запусков компонента

Timer

Время работы компонента (продолжительность обработки запроса. Продолжительность фиксируется с момента получения запроса на обработку до момента передачи управления следующему компоненту)

Время работы компонента

8

cote_pipeline_event_latency_total_seconds_max, cote_pipeline_event_latency_total_seconds_sum, cote_pipeline_event_latency_total_seconds_count

Время задержки от записи события до его прочтения

Timer

Время нахождения сообщения на запуск Pull Сollector в Kafka (время задержки от записи события до его прочтения)

Задержка прочтения данных из топика (pull-collector)

9

cote_pipeline_quoted_bytes

Фактическое использование квоты pipeline

Gauge

Метрика показывает фактическое использование квоты pipeline (объем данных в byte)

Использование квоты pipeline

10

cote_pipeline_exceeded_quota_bytes_total

Превышение квоты pipeline

Gauge

Метрика показывает размер сообщений pipeline, превышающих квоту (фиксируются значения, превысившие квоту)

Превышение квоты pipeline

11

cote_pipeline_exceeded_quota_count_total

Количество превышений квоты pipeline

Counter

Метрика показывает количество превышений квоты pipeline (сколько раз квота была превышена)

Количество превышений квоты pipeline

12

pipeline_inactive_milliseconds_total

Продолжительность бездействия с момента последнего запроса pipeline

Gauge

Продолжительность времени с последнего запуска pipeline (период времени между выполнением двух запусков pipeline)

Время с последнего запуска pipeline

13

cote_available

Доступность

Gauge

Готовность к обслуживанию запросов

Готовность к обслуживанию запросов

14

cote_db_available

Доступность базы данных

Gauge

Метрика однозначно показывающая доступность базы данных

Метрика однозначно показывающая доступность базы данных

Route для геобалансировки#

Для Единого Коллектора реализован healthcheck, который помогает определить работоспособность сервиса на текущий момент.
Healthcheck можно использовать для геобалансировки.

Получить healthcheck можно по endpoint:

Management App: https://tc-management-actuator${istio.ingress.route.common.stand.name}.${appsDomain}/actuator/health
Push collector: https://tc-push-actuator${istio.ingress.route.common.stand.name}.${appsDomain}/actuator/health