Руководство по системному администрированию#

Это руководство содержит названия переменных, которые применимы для различных сред контейнеризации, указанных в Руководстве по установке.

Термины и сокращения#

Раздел доступен в документе «Общее описание продукта Platform V Monitor (OPM)». В таблице ниже приведен перечень терминов и определений касающихся только компонента BAMN:

Термины

Определение

BAMN

Компонент Business activity monitoring (BAMN), входящий в состав продукта Platform V Monitor (OPM). Сервис, предназначенный для сбора событий бизнес-процессов

Администратор

Пользователь, имеющий права администратора для выполнения определенных функций

Дашборд

Интерактивная информационная панель

Administrator

Aдминистратор (компонент BAMN) – предназначен для работы с подключениями (создание, удаление), получения информации о подключениях, фильтрах, сущностях Platform V Monitor Abyss, разрешениях.

Pull processing

Сборщик событий (компонент BAMN) - предназначен для обработки и записи событий бизнес-процессов

Selector

Селектор (компонент сервиса BAMN) - предназначен для выборочного получения аналитических данных из Platform V Monitor Abyss и информации по процессам.

Сценарии администрирования#

Администратору рекомендуется регулярно выполнять:

  • контроль состояния работы системы;

  • мониторинг производительности системы;

  • контроль свободного места на жестких дисках всех серверов системы, а также в файловой системе;

  • администрирование источников данных (осуществляет настройку конфигурации ВАМN для подключаемых внешних сервисов). В рамках работы по контролю состояния системы Администратор должен наблюдать за работоспособностью подов(POD), а также следить, чтобы параметры, к примеру: "Использование процессора (CPU usage)", "Использование памяти" (Memmory usage) - не выходили за рамки критических значений. Также в рамках своих обязанностей администратор отвечает за:

  • доступность сервисов;

  • настройку конфигурации сервисов Platform V Monitor Business activity monitoring (BAMN);

  • диагностику в случае возникновения ошибок в работе сервиса (для получения информации необходимо обратиться к логам соответствующего сервиса);

  • поддержание окружения Platform V Monitor Platform V Monitor Business activity monitoring (BAMN) в работоспособном состоянии.

Описание парольной политики не применимо, так как Platform V Monitor Business activity monitoring (BAMN) не предполагает создание учетных записей/паролей пользователей, это действие происходит в рамках сервисов Platform V IAM (IAM)/Platform V Monitor (OPM). Изменять или задавать параметры конфигурации можно с помощью редактирования файла конфигурации необходимого модуля в среде выполнения Kubernetes

Выявление ошибок времени исполнения осуществляется через АРМ Platform V Monitor Журналирование (LOGA) или API Kubernetes.

  1. При выявлении нештатных ситуаций необходимо:

  • Проверить, поступают ли сообщения в Kafka Platform V Flow (BPM).

  • Проверить наличие доступа пользователя к проекту в Сервисе авторизации.

  • Проверить подключение проекта на странице "Управление сбором событий" в UI BAMN, где отображены подключенные проекты и процессы.

  1. В рамках выполнения требований безопасной работы системы, Администратор выполняет следующие функции:

  • осуществляет контроль использования средств защиты информации (в случае Platform V Monitor Business activity monitoring (BAMN) Администратор отвечает за корректную установку хранилища секретов Istio);

  • осуществляет контроль доступа к обрабатываемым данным пользователями, согласно с их правами доступа к АС;

  • несет ответственность за качество проводимых им работ.

Доступ к АС должны иметь только те сотрудники, которым он необходим в соответствии с их должностными обязанностями. Доступ должен ограничиваться минимально необходимым объемом данных. Должны разделяться среды разработки, тестирования и эксплуатации. При этом производится разделение обязанностей между сотрудниками среды разработки, тестирования и сотрудниками, которые используют уже введенную в промышленную эксплуатацию систему.

Все параметры конфигурации подробно описаны в Справочнике конфигурационных файлов.

События системного журнала#

Ошибки, возникающие при работе сервисов BAMN логируются в Platform V Monitor Журналирование (LOGA). Вывод журнала работы сервиса осуществляется в АРМ Platform V Monitor Журналирование (LOGA) в виде таблицы либо в текстовом виде.

  • с уровнем ERROR, если произошла критическая ошибка (или exception), не позволяющая продолжить процесс;

  • с уровнем WARN, если произошла ошибка, которая позволяет продолжить процесс;

  • с уровнем INFO, если произошло важное событие;

  • с уровнем DEBUG - для поиска причин возможных ошибок.

Примеры событий системного журнала в приведены в таблице.

Список логируемых событий#

Сообщение

Уровень логирования

subsystem

tenant

Комментарий

"Error during sending audit event $auditEvent "

ERROR

любой

BAMN

"Audit service stub was registered"

INFO

любой

BAMN

"Topic for project=$projectId doesn't exist"

DEBUG

bam_synthetic_app

BAMN

События мониторинга#

События мониторинга, возникающие при работе сервисов BAMN, передаются в Platform V Monitor Объединенный мониторинг Unimon (MONA). Сервисы BAMN выставляют метрики через HTTP-endpoint (/actuator/prometheus) в формате совместимым с системой мониторинга Prometheus. Клиентский сервис Unimon автоматически находит HTTP-endpoint, собирает и передает метрики для последующей обработки сервисом Unimon.

Имя метрики

Тип метрики

Описание

Источник

user labels

BAM_EVENT_READ_FAIL

counter

Ошибка при чтении из Kafka Platform V Flow (BPM)

BAMN.Pull processing

failReason

BAM_EVENT_READ_SUCCESS

counter

Событие успешно считано из Kafka Platform V Flow (BPM)

BAMN.Pull processing

processId, projectId

BAM_EVENT_WRITE_SUCCESS

counter

Событие успешно записано в Kafka Abyss

BAMN.Pull processing

processId, projectId

BAM_EVENT_WRITE_FAIL

counter

Попытка записать событие в Kafka Abyss завершилась с ошибкой

BAMN.Pull processing

processId, projectId

BAM_EVENT_FILTERED

counter

Сколько событий из Kafka отфильтровано и не отправлено в Abyss

BAMN.Pull processing

filteringReason

BAM_SCHEMA_READ_SUCCESS

counter

Схема успешно считана из Kafka Platform V Flow (BPM)

BAMN.Pull processing

processId, projectId

BAM_SCHEMA_WRITE_SUCCESS

counter

bpmn схема успешно записана в BAM.DB

BAMN.Pull processing

processId, projectId

kafka_consumer_fetch_manager_records_lag

gauge

The latest lag of the partition

BAMN.Pull processing

kafka_consumer_fetch_manager_records_lag_max

gauge

The max lag of the partition

BAMN.Pull processing

kafka_consumer_fetch_manager_records_lag_avg

gauge

The average lag of the partition

BAMN.Pull processing

kafka_consumer_fetch_manager_fetch_size_avg

gauge

The average number of bytes fetched per request for a topic

BAMN.Pull processing

kafka_consumer_fetch_manager_bytes_consumed_rate

gauge

The average number of bytes consumed per second for a topic

BAMN.Pull processing

kafka_producer_outgoing_byte_rate

gauge

The number of outgoing bytes sent to all servers per second

BAMN.Pull processing

BAM_POST_ANALYTICAL_QUERY_REQUEST

counter

Пришел запрос на получение аналитических данных по SQL запросу из Abyss

BAMN.Selector

projectId

BAM_POST_ANALYTICAL_QUERY_SUCCESS

counter

Ответ на запрос на получение аналитических данных по SQL запросу из Abyss отправлен потребителю

BAMN.Selector

projectId

BAM_POST_ANALYTICAL_QUERY_FAIL

counter

Ошибка в ответе на запрос на получение аналитических данных по SQL запросу из Abyss

BAMN.Selector

projectId

BAM_POST_ANALYTICAL_QUERY_DURATION

timer

Длительность ожидания ответа от Abyss

BAMN.Selector

-

BAM_GET_USER_PROJECTS_REQUEST

counter

Пришел запрос на получение проектов пользователя

BAMN.Selector

-

BAM_GET_USER_PROJECTS_SUCCESS

counter

Получен ответ на запрос на получение проектов пользователя

BAMN.Selector

-

BAM_GET_USER_PROJECTS_FAIL

counter

Системная ошибка при запросе получения проектов пользователя

BAMN.Selector

-

BAM_GET_ACTIVITY_METADATA_REQUEST

counter

Пришел запрос на получение описания шагов процесса

BAMN.Selector

processId

BAM_GET_ACTIVITY_METADATA_SUCCESS

counter

Получен ответ на запрос на получение описания шагов процесса

BAMN.Selector

processId

BAM_GET_ACTIVITY_METADATA_FAIL

counter

Ошибка в ответе на запрос на получение описания шагов процесса

BAMN.Selector

processId

BAM_GET_SCHEMA_LIST_REQUEST

counter

Пришел запрос на получение списка процессов

BAMN.Selector

projectId

BAM_GET_SCHEMA_LIST_SUCCESS

counter

Получен ответ на запрос на получение списка процессов

BAMN.Selector

projectId

BAM_GET_SCHEMA_LIST_FAIL

counter

Ошибка в ответе на запрос на получение списка процессов

BAMN.Selector

projectId

BAM_GET_SCHEMA_REQUEST

counter

Пришел запрос на получение описания процесса в виде bpmn-схемы процесса

BAMN.Selector

processId

BAM_GET_SCHEMA_SUCCESS

counter

Получен ответ на запрос на получение описания процесса в виде bpmn-схемы процесса

BAMN.Selector

processId

BAM_GET_SCHEMA_FAIL

counter

Ошибка в ответе на запрос на получение описания описания процесса в виде bpmn-схемы

BAMN.Selector

processId

BAM_SECURED_NODE_EXECUTION_REQUEST

counter

[защищенный вариант] Пришел запрос на получение статистики по шагам процесса

BAMN.Selector

-

BAM_SECURED_NODE_EXECUTION_SUCCESS

counter

[защищенный вариант] Запрос на получение статистики по шагам процесса прошел успешно

BAMN.Selector

-

BAM_SECURED_NODE_EXECUTION_FAIL

counter

[защищенный вариант] Запрос на получение статистики по шагам процесса прошел с ошибкой

BAMN.Selector

-

BAM_SECURED_NODE_EXECUTION_DURATION

timer

[защищенный вариант] Длительность получения от Abyss статистики по шагам

BAMN.Selector

-

Часто встречающиеся проблемы и пути их устранения#

Наиболее частые проблемы и пути их устранения#

Подавляющее большинство ошибок возникают в связи с некорректной установкой, конфигурацией сервисов и окружения ВАМ. В связи с этим, наиболее частые ошибки и пути их решения, перекликаются с разделом "Часто встречающиеся проблемы и пути их устранения" в руководстве по установке.

  1. Ошибка монтирования сертификата в событиях пода(Pod - абстрактный объект Kubernetes). Данная ошибка возникает при отсутствии или некорректно созданном секрете для сертификатов BAMN Selector, BAMN Administrator и BAMN Pull-processing. Для устранения необходимо исправить или пересоздать секрет.

  2. Ошибка выгрузки образа. Данная ошибка возникает при отсутствии или некорректном секрете для выгрузки образа. Для устранения необходимо исправить или пересоздать секрет. Для исправления секрета повторить на соответствие шагам, которые описаны в разделе "Подготовка хранилища сертификатов" текущего документа.

  3. Ошибка исчерпания ресурсов namespace. Данная ошибка возникает при отсутствии необходимого количества ресурсов для развертывания сервиса. Для устранения необходимо удалить лишние сущности из namespace, либо расширить квоты.

Ситуации, связанные со сбоями или ошибками эксплуатации, их последствия, влияние на обеспечение безопасного функционирования программного компонента, операции, необходимые для предотвращения возможных негативных последствий в этих ситуациях#

  1. Не доступны сервисы Platform V Monitor Business activity monitoring (BAMN) (Administrator, Pull processing, Selector), в данном случае нужно выполнить перезапуск соответствующего Pod, проверить наличие ошибок в подах Istio ingress в пространстве ВАМN. Ошибки подобного рода оказывают критическое влияние на работоспособность BAMN.

  2. Ошибки в работе БД BAMN. Для восстановления работы необходимо использовать встроенные механизмы окружения (кластеризация), проверить наличие ошибок в подах Istio ingress в пространстве ВАМN. Ошибки в БД имеют критическое значения для работоспособности всего BAMN, а также сервисов с ним связанных.

  3. Прекращения отображения событий журналирования. В данном случае необходимо просмотреть логи в платформе контейнеризации Kubernetes. Ошибка подобного рода не несет критического значения для работоспособности BAMN.