GPU Feature Discovery#

GPU Feature Discovery - компонент, который позволяет автоматически генерировать метки для набора графических процессоров, доступных на node. Использует функцию Node Feature Discovery для выполнения этой маркировки.

GPU Feature Discovery управляется посредством командной строки.

Таблица. Доступные команды GPU Feature Discovery.

Синтаксис команды

Описание

-h --help

Показать справочное сообщение и выйти

--version

Отобразить версию и выйти

--oneshot

Пометить один раз и выйти

--no-timestamp

Не добавлять метку времени к меткам

--fail-on-init-error=<bool>

Прекратить выполнение, если произошла ошибка при инициализации любого источника меток [По умолчанию: true]

--sleep-interval=<seconds>

Время ожидания между маркировкой [По умолчанию: 60s]

--mig-strategy=<strategy>

Стратегия для работы с метками, связанными с MIG [По умолчанию: no]

-o <file> --output-file=<file>

Путь к файлу вывода [По умолчанию: /etc/kubernetes/node-feature-discovery/features.d/gfd]

Пример использования:

gpu-feature-discovery [--fail-on-init-error=<bool>] [--mig-strategy=<strategy>] [--oneshot | --sleep-interval=<seconds>] [--no-timestamp] [--output-file=<file> | -o <file>]

gpu-feature-discovery -h | --help

gpu-feature-discovery --version

Установка GPU Feature Discovery#

Для выполнения данного сценария необходимы права администратора, Node Feature Discovery работает на каждом node, который необходимо отметить.

  1. Установите GPU Feature Discovery с помощью команды:

    kubectl apply -f https://<repoexample.ru>/NVIDIA/gpu-feature-discovery/v0.8.2/deployments/static/gpu-feature-discovery-daemonset.yaml
    # Укажите актуальный путь до локального репозитория
    
  2. Выполните команду для получения информации о nodes кластера DropApp в формате YAML:

    kubectl get nodes -o yaml
    

    Результат выполнения:

     ~~~yaml
     apiVersion: v1
     items:
     - apiVersion: v1
     kind: Node
     metadata:
         ...
    
         labels:
         nvidia.com/cuda.driver.major: "455"
         nvidia.com/cuda.driver.minor: "06"
         nvidia.com/cuda.driver.rev: ""
         nvidia.com/cuda.runtime.major: "11"
         nvidia.com/cuda.runtime.minor: "1"
         nvidia.com/gpu.compute.major: "8"
         nvidia.com/gpu.compute.minor: "0"
         nvidia.com/gfd.timestamp: "1594644571"
         nvidia.com/gpu.count: "1"
         nvidia.com/gpu.family: ampere
         nvidia.com/gpu.machine: NVIDIA DGX-2H
         nvidia.com/gpu.memory: "39538"
         nvidia.com/gpu.product: A100-SXM4-40GB
         ...
     ...
     ~~~