GPU Feature Discovery#
GPU Feature Discovery - компонент, который позволяет автоматически генерировать метки для набора графических процессоров, доступных на node. Использует функцию Node Feature Discovery для выполнения этой маркировки.
GPU Feature Discovery управляется посредством командной строки.
Таблица. Доступные команды GPU Feature Discovery.
Синтаксис команды |
Описание |
|---|---|
|
Показать справочное сообщение и выйти |
|
Отобразить версию и выйти |
|
Пометить один раз и выйти |
|
Не добавлять метку времени к меткам |
|
Прекратить выполнение, если произошла ошибка при инициализации любого источника меток [По умолчанию: |
|
Время ожидания между маркировкой [По умолчанию: |
|
Стратегия для работы с метками, связанными с MIG [По умолчанию: |
|
Путь к файлу вывода [По умолчанию: |
Пример использования:
gpu-feature-discovery [--fail-on-init-error=<bool>] [--mig-strategy=<strategy>] [--oneshot | --sleep-interval=<seconds>] [--no-timestamp] [--output-file=<file> | -o <file>]
gpu-feature-discovery -h | --help
gpu-feature-discovery --version
Установка GPU Feature Discovery#
Для выполнения данного сценария необходимы права администратора, Node Feature Discovery работает на каждом node, который необходимо отметить.
Установите GPU Feature Discovery с помощью команды:
kubectl apply -f https://<repoexample.ru>/NVIDIA/gpu-feature-discovery/v0.8.2/deployments/static/gpu-feature-discovery-daemonset.yaml # Укажите актуальный путь до локального репозиторияВыполните команду для получения информации о nodes кластера DropApp в формате YAML:
kubectl get nodes -o yamlРезультат выполнения:
~~~yaml apiVersion: v1 items: - apiVersion: v1 kind: Node metadata: ... labels: nvidia.com/cuda.driver.major: "455" nvidia.com/cuda.driver.minor: "06" nvidia.com/cuda.driver.rev: "" nvidia.com/cuda.runtime.major: "11" nvidia.com/cuda.runtime.minor: "1" nvidia.com/gpu.compute.major: "8" nvidia.com/gpu.compute.minor: "0" nvidia.com/gfd.timestamp: "1594644571" nvidia.com/gpu.count: "1" nvidia.com/gpu.family: ampere nvidia.com/gpu.machine: NVIDIA DGX-2H nvidia.com/gpu.memory: "39538" nvidia.com/gpu.product: A100-SXM4-40GB ... ... ~~~