События мониторинга#
Микросервисы предоставляют метрики в формате Prometheus. Метрики собираются с помощью Prometheus-агента (Cote-agent) и доставляются с помощью средств Platform V Monitor (OPM).
Системные метрики#
N |
Метрика |
Название метрики |
Тип метрики |
Дашборд |
|---|---|---|---|---|
1 |
system_cpu_count |
Количество запущенных pod |
Сounter |
Running PODs |
2 |
system_cpu_usage |
Процент использования ЦПУ системой |
Gauge |
System CPU usage |
3 |
process_cpu_usage |
Процент использования ЦПУ процессом |
Gauge |
Process CPU usage |
4 |
jvm_threads_live_threads |
Количество потоков |
Сounter |
Threads |
5 |
jvm_threads_daemon_threads |
Количество потоков |
Сounter |
Threads |
6 |
jvm_threads_states_threads |
Количество потоков |
Сounter |
Threads |
7 |
jvm_memory_used_bytes |
JVM memory used |
Сounter |
Memory used |
8 |
jvm_buffer_memory_used_bytes |
JVM buffer memory used |
Сounter |
Buffer memory used |
9 |
jvm_memory_committed_bytes |
JVM memory committed |
Сounter |
Memory committed |
10 |
application_started_time_seconds |
Время запуска приложения |
Timer |
Startup time |
11 |
http_server_requests_seconds_count |
Количество запросов |
Сounter |
Requests count |
12 |
http_server_requests_seconds_sum |
Время выполнения запросов |
Timer |
Requests time |
13 |
hikaricp_connections |
HikariCP Total Connections |
Сounter |
HikariCP Total Connections |
14 |
hikaricp_connections_idle |
HikariCP Idle Connections |
Сounter |
HikariCP Idle Connections |
15 |
hikaricp_connections_active |
HikariCP Active Connections |
Сounter |
HikariCP Active Connections |
16 |
hikaricp_connections_pending |
HikariCP Threads Pending Connections |
Сounter |
HikariCP Threads Pending Connections |
Бизнес метрики#
N |
Метрика |
Название метрики |
Тип метрики |
Описание метрики |
Дашборд |
|---|---|---|---|---|---|
1 |
cote_pipeline_active_count |
Количество активных pipeline |
Gauge |
Количество pipeline, которые запускались в течение предыдущей минуты. |
Количество активных pipeline |
2 |
cote_pipeline_error_count_total |
Количество ошибок при работе pipeline |
Counter |
Количество ошибок при работе pipeline |
Количество ошибок при работе pipeline |
3 |
cote_pipeline_execute_total_seconds_max, cote_pipeline_execute_total_seconds_count, cote_pipeline_execute_total_seconds_max |
Время работы pipeline и количество запусков |
Timer |
Время работы pipeline (от момента запуска pipeline до момента отправки результата) |
Время работы pipeline |
4 |
cote_pipeline_message_count_total |
Количество сообщений, обработанных pipeline |
Counter |
Количество сообщений обработанных pipeline |
Количество обработанных сообщений pipeline |
5 |
cote_pipeline_message_execute_avg |
Среднее время обработки сообщения pipeline |
Gauge |
Общее время обработки сообщений pipeline, разделенное на количество обработанных сообщений. |
Среднее время обработки сообщения pipeline |
6 |
cote_component_error_count_total |
Количество ошибок при работе компонента |
Counter |
Количество ошибок при работе компонента |
Количество запусков компонента |
7 |
cote_component_execute_seconds_max, cote_component_execute_seconds_sum, cote_component_execute_seconds_count |
Время работы и количество запусков компонента |
Timer |
Время работы компонента (продолжительность обработки запроса. Продолжительность фиксируется с момента получения запроса на обработку до момента передачи управления следующему компоненту) |
Время работы компонента |
8 |
cote_pipeline_event_latency_total_seconds_max, cote_pipeline_event_latency_total_seconds_sum, cote_pipeline_event_latency_total_seconds_count |
Время задержки от записи события до его прочтения |
Timer |
Время нахождения сообщения на запуск Pull Сollector в Kafka (время задержки от записи события до его прочтения) |
Задержка прочтения данных из топика (pull-collector) |
9 |
cote_pipeline_quoted_bytes |
Фактическое использование квоты pipeline |
Gauge |
Метрика показывает фактическое использование квоты pipeline (объем данных в byte) |
Использование квоты pipeline |
10 |
cote_pipeline_exceeded_quota_bytes_total |
Превышение квоты pipeline |
Gauge |
Метрика показывает размер сообщений pipeline, превышающих квоту (фиксируются значения, превысившие квоту) |
Превышение квоты pipeline |
11 |
cote_pipeline_exceeded_quota_count_total |
Количество превышений квоты pipeline |
Counter |
Метрика показывает количество превышений квоты pipeline (сколько раз квота была превышена) |
Количество превышений квоты pipeline |
12 |
pipeline_inactive_milliseconds_total |
Продолжительность бездействия с момента последнего запроса pipeline |
Gauge |
Продолжительность времени с последнего запуска pipeline (период времени между выполнением двух запусков pipeline) |
Время с последнего запуска pipeline |
13 |
cote_available |
Доступность |
Gauge |
Готовность к обслуживанию запросов |
Готовность к обслуживанию запросов |
14 |
cote_db_available |
Доступность базы данных |
Gauge |
Метрика однозначно показывающая доступность базы данных |
Метрика однозначно показывающая доступность базы данных |
Route для геобалансировки#
Для Единого Коллектора реализован healthcheck, который помогает определить работоспособность сервиса на текущий момент.
Healthcheck можно использовать для геобалансировки.
Получить healthcheck можно по endpoint:
Management App: https://tc-management-actuator${istio.ingress.route.common.stand.name}.${appsDomain}/actuator/health
Push collector: https://tc-push-actuator${istio.ingress.route.common.stand.name}.${appsDomain}/actuator/health