ホーム
製品
OpenShift Container Platform
4.16
ハードウェアアクセラレーター

ハードウェアアクセラレーター

OpenShift Container Platform 4.16

ハードウェアアクセラレーター

Red Hat OpenShift Documentation Team

概要

このドキュメントでは、人工知能および機械学習 (AI/ML) アプリケーションを作成するのに提供されるハードウェアアクセラレーション機能用に、Red Hat OpenShift AI でサポートされている GPU Operator をインストールおよび設定する手順を説明します。

第1章ハードウェアアクセラレーターについて
リンクのコピー

専用ハードウェアアクセラレーターは、新しい生成人工知能および機械学習 (AI/ML) 業界で重要な役割を果たします。具体的には、ハードウェアアクセラレーターは、この新しいテクノロジーを支える大規模言語モデルやその他の基礎モデルのトレーニングと提供に不可欠です。データサイエンティスト、データエンジニア、ML エンジニア、開発者は、データ量の多い変換やモデルの開発と提供に特化したハードウェアアクセラレーションを活用できます。そのエコシステムの多くはオープンソースであり、複数の貢献パートナーとオープンソース財団が存在します。

Red Hat OpenShift Container Platform は、ハードウェアアクセラレーターの構成要素である次の処理ユニットを追加するカードと周辺ハードウェアをサポートしています。

グラフィックスプロセッシングユニット (GPU)
ニューラルプロセッシングユニット (NPU)
特定用途向け集積回路 (ASIC)
データプロセッシングユニット (DPU)

専用ハードウェアアクセラレーターは、AI/ML 開発にさまざまな利点をもたらします。

1 つのプラットフォームであらゆる用途に対応: 開発者、データエンジニア、データサイエンティスト、DevOps のためのコラボレーション環境
Operator による機能拡張: Operator により OpenShift Container Platform に AI/ML 機能を導入可能
ハイブリッドクラウドのサポート: モデルの開発、提供、デプロイのためのオンプレミスサポート
AI/ML ワークロードのサポート: モデルのテスト、イテレーション、統合、プロモートを行い、サービスとして運用環境に提供

Red Hat は、Red Hat Enterprise Linux (RHEL) および OpenShift Container Platform プラットフォームの Linux (カーネルとユーザー空間) および Kubernetes レイヤーで、このような専用ハードウェアアクセラレーターを有効にするために最適化されたプラットフォームを提供しています。これを実現するために、Red Hat は、Red Hat OpenShift AI と Red Hat OpenShift Container Platform の実証済みの機能を、単一のエンタープライズ対応 AI アプリケーションプラットフォームに統合しました。

ハードウェア Operator は、Kubernetes クラスターのオペレーティングフレームワークを使用して、必要なアクセラレーターリソースを有効にします。提供されているデバイスプラグインを手動で、またはデーモンセットとしてデプロイすることもできます。このプラグインにより、クラスターに GPU が登録されます。

専用ハードウェアアクセラレーターの中には、開発とテストのためのセキュリティーを確保する必要がある非接続環境内で動作するように設計されているものもあります。

1.1. ハードウェアアクセラレーター
リンクのコピー

Red Hat OpenShift Container Platform では、次のハードウェアアクセラレーターが有効になります。

NVIDIA GPU
AMD Instinct® GPU
Intel® Gaudi®

第2章 NVIDIA GPU アーキテクチャー
リンクのコピー

NVIDIA は、OpenShift Container Platform でのグラフィックスプロセッシングユニット (GPU) リソースの使用をサポートしています。OpenShift Container Platform は、大規模な Kubernetes クラスターのデプロイと管理用に Red Hat が開発およびサポートする、セキュリティーを重視して強化された Kubernetes プラットフォームです。OpenShift Container Platform には Kubernetes の拡張機能が含まれているため、ユーザーはが簡単に NVIDIA GPU リソースを設定し、それを使用してワークロードを高速化できます。

NVIDIA GPU Operator は、OpenShift Container Platform 内の Operator フレームワークを使用して、GPU で高速化されたワークロードの実行に必要な NVIDIA ソフトウェアコンポーネントのライフサイクル全体を管理します。

これらのコンポーネントには、NVIDIA ドライバー (CUDA を有効にするため)、GPU 用の Kubernetes デバイスプラグイン、NVIDIA Container Toolkit、GPU Feature Discovery (GFD) を使用した自動ノードタグ付け、DCGM ベースのモニタリングなどが含まれます。

注記

NVIDIA GPU Operator をサポートしているのは NVIDIA だけです。NVIDIA からサポートを受ける方法は、NVIDIA サポートの利用方法を参照してください。

2.1. NVIDIA GPU の前提条件
リンクのコピー

1 つ以上の GPU ワーカーノードを備えた OpenShift クラスターが稼働している。
必要な手順を実行するために cluster-admin として OpenShift クラスターにアクセスできる。
OpenShift CLI (oc) がインストールされている。
Node Feature Discovery (NFD) Operator をインストールし、nodefeaturediscovery インスタンスを作成している。

2.2. NVIDIA GPU の有効化
リンクのコピー

以下の図は、OpenShift で GPU アーキテクチャーがどのように有効になっているかを示しています。

図2.1 NVIDIA GPU の有効化

注記

MIG は、A30、A100、A100X、A800、AX800、H100、H800 でのみサポートされます。

2.2.1. GPU とベアメタル
リンクのコピー

NVIDIA 認定のベアメタルサーバーに OpenShift Container Platform をデプロイできますが、いくつかの制限があります。

コントロールプレーンノードは CPU ノードにできます。
AI/ML ワークロードがワーカーノードで実行される場合、そのワーカーノードは GPU ノードである必要があります。
さらに、ワーカーノードは 1 つ以上の GPU をホストできますが、すべて同じタイプである必要があります。たとえば、ノードには 2 つの NVIDIA A100 GPU が存在することは可能ですが、A100 GPU と T4 GPU を 1 つずつ備えたノードはサポートされません。Kubernetes の NVIDIA デバイスプラグインは、同じノード上で異なる GPU モデルの組み合わせをサポートしません。
OpenShift を使用する場合は、1 台または 3 台以上のサーバーが必要な点に注意してください。2 台のサーバーを含むクラスターはサポートされません。単一サーバーのデプロイメントはシングルノード openShift (SNO) と呼ばれ、この設定を使用すると、高可用性 OpenShift 環境が得られません。

以下のいずれかの方法で、コンテナー化された GPU にアクセスできます。

GPU パススルー
マルチインスタンス GPU (MIG)

2.2.2. GPU と仮想化
リンクのコピー

多くの開発者や企業がコンテナー化されたアプリケーションやサーバーレスインフラストラクチャーに移行していますが、仮想マシン上で実行されるアプリケーションの開発と保守は引き続き注目されています。Red Hat OpenShift Virtualization はこの機能を提供し、企業はこの機能を使用して仮想マシンをクラスター内のコンテナー化されたワークフロー組み込むことができます。

ワーカーノードを GPU に接続する場合は、次のいずれかの方法を選択できます。

仮想マシン内の GPU ハードウェアにアクセスして使用するための GPU パススルー。
GPU コンピュート容量がワークロードでいっぱいになっていない場合の GPU (vGPU) のタイムスライス。

2.2.3. GPU と vSphere
リンクのコピー

OpenShift Container Platform は、さまざまな GPU タイプをホストできる NVIDIA 認定の VMware vSphere サーバーにデプロイできます。

仮想マシンで vGPU インスタンスが使用されている場合は、NVIDIA GPU ドライバーをハイパーバイザーにインストールする必要があります。VMware vSphere の場合、このホストドライバーは VIB ファイルの形式で提供されます。

ワーカーノード仮想マシンに割り当てることができる vGPUS の最大数は、vSphere のバージョンによって異なります。

vSphere 7.0: 仮想マシンごとに最大 4 つの仮想 GPU
vSphere 8.0: 仮想マシンごとに最大 8 つの仮想 GPU
注記
vSphere 8.0 では、仮想マシンに関連付けられた複数の完全または部分的な異種プロファイルのサポートが導入されました。

次のいずれかの方法を選択して、ワーカーノードを GPU に割り当てることができます。

仮想マシン内の GPU ハードウェアにアクセスして使用するための GPU パススルー
すべての GPU が必要でない場合の GPU (vGPU) タイムスライス

ベアメタルデプロイメントと同様に、1 台または 3 台以上のサーバーが必要です。2 台のサーバーを含むクラスターはサポートされません。

2.2.4. GPU および Red Hat KVM
リンクのコピー

OpenShift Container Platform は、NVIDIA 認定のカーネルベースの仮想マシン (KVM) サーバー上で使用できます。

ベアメタルデプロイメントと同様に、1 台または 3 台以上のサーバーが必要です。2 台のサーバーを含むクラスターはサポートされません。

ただし、ベアメタルデプロイメントとは異なり、サーバーで異なるタイプの GPU を使用できます。これは、GPU を Kubernetes ノードとして機能する別の仮想マシンに割り当てることができるためです。唯一の制限として、Kubernetes ノードがノードと同レベルで GPU タイプのセットを持つ必要があります。

以下のいずれかの方法で、コンテナー化された GPU にアクセスできます。

仮想マシン内の GPU ハードウェアにアクセスして使用するための GPU パススルー
すべての GPU が必要でない場合の GPU (vGPU) タイムスライス

vGPU 機能を有効にするには、特別なドライバーをホストレベルでインストールする必要があります。このドライバーは RPM パッケージとして提供されます。このホストドライバーは、GPU パススルーの割り当てにはまったく必要ありません。

2.2.5. GPU と CSP
リンクのコピー

OpenShift Container Platform は、主要なクラウドサービスプロバイダー (CSP) である Amazon Web Services (AWS)、Google Cloud、Microsoft Azure のいずれかにデプロイできます。

フルマネージドデプロイメントとセルフマネージドデプロイメントの 2 つのオペレーションモードを使用できます。

フルマネージドデプロイメントでは、Red Hat が CSP と連携してすべてを自動化します。お客様は CSP の Web コンソールを使用して OpenShift インスタンスを要求できます。クラスターは自動的に作成され、Red Hat によって完全に管理されます。この環境内では、ノードの障害やエラーを心配する必要はありません。クラスターの稼働時間を維持する責任は Red Hat がすべて負います。フルマネージドサービスは、AWS、Azure、Google Cloud で利用できます。AWS の場合、OpenShift サービスは ROSA (Red Hat OpenShift Service on AWS) と呼ばれます。Azure の場合、このサービスは Azure Red Hat OpenShift と呼ばれます。Google Cloud の場合、このサービスは OpenShift Dedicated on Google Cloud と呼ばれます。
セルフマネージドデプロイメントでは、お客様が OpenShift クラスターのインスタンス化と維持を行う必要があります。この場合、Red Hat は OpenShift クラスターのデプロイを支援するために、OpenShift-install ユーティリティーを提供します。セルフマネージドサービスは、世界中のすべての CSP で利用できます。

このコンピュートインスタンスが GPU により高速化されたコンピュートインスタンスであること、および GPU タイプが NVIDIA AI Enterprise でサポートされている GPU のリストと一致することが重要です。たとえば、T4、V100、A100 はこのリストに含まれます。

以下のいずれかの方法で、コンテナー化された GPU にアクセスできます。

仮想マシン内の GPU ハードウェアにアクセスして使用するための GPU パススルー。
GPU 全体を必要としない場合 GPU (vGPU) タイムスライス。

2.2.6. GPU と Red Hat Device Edge
リンクのコピー

Red Hat Device Edge は MicroShift へのアクセスを提供します。MicroShift は、シングルノードデプロイメントのシンプルさと、リソースに制約のある (エッジ) コンピューティング求められる機能とサービスを備えています。Red Hat Device Edge は、リソースに制約のある環境にデプロイされるベアメタル、仮想、コンテナー化された、または Kubernetes のワークロードのニーズを満たします。

Red Hat Device Edge 環境のコンテナー上で NVIDIA GPU を有効にできます。

コンテナー化された GPU へのアクセスには、GPU パススルーを使用します。

2.4. OpenShift Container Platform の NVIDIA GPU 機能
リンクのコピー

NVIDIA Container Toolkit

NVIDIA Container Toolkit を使用すると、GPU で高速化されたコンテナーを作成して実行できます。ツールキットには、コンテナーが NVIDIA GPU を使用するように自動的に設定するためのコンテナーランタイムライブラリーとユーティリティーが含まれています。

NVIDIA AI Enterprise

NVIDIA AI Enterprise は、NVIDIA 認定システムで最適化、認定、サポートされている AI およびデータ分析ソフトウェアのエンドツーエンドのクラウドネイティブスイートです。

NVIDIA AI Enterprise には、Red Hat OpenShift Container Platform のサポートが含まれています。サポートされているインストール方法は以下のとおりです。

GPU パススルーを使用するベアメタルまたは VMware vSphere 上の OpenShift Container Platform。
NVIDIA vGPU を使用する VMware vSphere 上の OpenShift Container Platform。

GPU Feature Discovery

NVIDIA GPU Feature Discovery for Kubernetes は、ノード上で使用可能な GPU のラベルを自動的に生成できるソフトウェアコンポーネントです。GPU Feature Discovery は、Node Feature Discovery (NFD) を使用してこのラベル付けを実行します。

Node Feature Discovery (NFD) Operator は、ハードウェア固有の情報でノードにラベル付けを行うことで、OpenShift Container Platform クラスターのハードウェア機能と設定の検出を管理します。NFD は、PCI カード、カーネル、OS バージョンなどのノード固有の属性で、ホストにラベル付けを行います。

Operator Hub で NFD Operator を見つけるには、"Node Feature Discovery" で検索してください。

NVIDIA GPU Operator with OpenShift Virtualization

これまで、GPU Operator は、GPU で高速化されたコンテナーを実行するためにワーカーノードのみをプロビジョニングしていました。現在は、GPU Operator を使用して、GPU で高速化された仮想マシンを実行するためのワーカーノードもプロビジョニングできます。

GPU Operator を、どの GPU ワークロードがそのワーカーノード上で実行するように設定されたかに応じて、異なるソフトウェアコンポーネントをワーカーノードにデプロイするように設定できます。

GPU モニタリングダッシュボード

モニタリングダッシュボードをインストールして、OpenShift Container Platform Web コンソールのクラスターの Observe ページに、GPU の使用状況に関する情報を表示できます。GPU 使用状況に関する情報には、使用可能な GPU の数、消費電力 (ワット単位)、温度 (摂氏)、使用率 (パーセント)、および各 GPU のその他のメトリクスが含まれます。

第3章 AMD GPU Operator
リンクのコピー

OpenShift Container Platform クラスター内で AMD Instinct GPU アクセラレーターと AMD GPU Operator を併用することで、機械学習、生成 AI、および GPU アクセラレーションアプリケーション向けのコンピューティング能力をシームレスに活用できます。

このドキュメントでは、AMD GPU Operator を有効化、設定、テストするために必要な情報を提供します。詳細は、AMD Instinct™ Accelerators を参照してください。

3.1. AMD GPU Operator について
リンクのコピー

AMD GPU Operator のハードウェアアクセラレーション機能は、Red Hat OpenShift AI を使用して人工知能および機械学習 (AI/ML) アプリケーションを作成するデータサイエンティストや開発者に、高いパフォーマンスとコスト効率を提供します。GPU 機能の特定の領域を高速化すると、CPU 処理とメモリー使用量を最小限に抑え、全体的なアプリケーション速度、メモリー消費、帯域幅の制約を改善できます。

3.2. AMD GPU Operator のインストール
リンクのコピー

クラスター管理者は、OpenShift CLI と Web コンソールを使用して AMD GPU Operator をインストールできます。これは複数のステップから成る手順であり、Node Feature Discovery Operator、Kernel Module Management Operator、AMD GPU Operator のインストールが必要です。Operator の AMD コミュニティー版リリースをインストールするには、次の手順を順に実行します。

次のステップ

Node Feature Discovery Operator をインストールします。
Kernel Module Management Operator をインストールします。
AMD GPU Operator をインストールして設定します。

3.3. AMD GPU Operator のテスト
リンクのコピー

ROCmInfo のインストールをテストし、AMD MI210 GPU のログを表示するには、次の手順を使用します。

手順

ROCmInfo をテストする YAML ファイルを作成します。

$ cat << EOF > rocminfo.yaml

apiVersion: v1
kind: Pod
metadata:
 name: rocminfo
spec:
 containers:
 - image: docker.io/rocm/pytorch:latest
   name: rocminfo
   command: ["/bin/sh","-c"]
   args: ["rocminfo"]
   resources:
    limits:
      amd.com/gpu: 1
    requests:
      amd.com/gpu: 1
 restartPolicy: Never
EOF

rocminfo Pod を作成します。

$ oc create -f rocminfo.yaml

出力例

apiVersion: v1
pod/rocminfo created

1 つの MI210 GPU を含む rocmnfo ログを確認します。

$ oc logs rocminfo | grep -A5 "Agent"

出力例

HSA Agents
==========
*******
Agent 1
*******
  Name:                    Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz
  Uuid:                    CPU-XX
  Marketing Name:          Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz
  Vendor Name:             CPU
--
Agent 2
*******
  Name:                    Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz
  Uuid:                    CPU-XX
  Marketing Name:          Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz
  Vendor Name:             CPU
--
Agent 3
*******
  Name:                    gfx90a
  Uuid:                    GPU-024b776f768a638b
  Marketing Name:          AMD Instinct MI210
  Vendor Name:             AMD

Pod を削除します。

$ oc delete -f rocminfo.yaml

出力例

pod "rocminfo" deleted

Legal Notice
リンクのコピー

OpenShift documentation is licensed under the Apache License 2.0 (https://www.apache.org/licenses/LICENSE-2.0).

Modified versions must remove all Red Hat trademarks.

Portions adapted from https://github.com/kubernetes-incubator/service-catalog/ with modifications by Red Hat.

Red Hat, Red Hat Enterprise Linux, the Red Hat logo, the Shadowman logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.

Linux® is the registered trademark of Linus Torvalds in the United States and other countries.

Java® is a registered trademark of Oracle and/or its affiliates.

XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.

MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.

Node.js® is an official trademark of the OpenJS Foundation.

The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation’s permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.

All other trademarks are the property of their respective owners.

ハードウェアアクセラレーター

ハードウェアアクセラレーター

第1章ハードウェアアクセラレーターについて
リンクのコピー

1.1. ハードウェアアクセラレーター
リンクのコピー

第2章 NVIDIA GPU アーキテクチャー
リンクのコピー

2.1. NVIDIA GPU の前提条件
リンクのコピー

2.2. NVIDIA GPU の有効化
リンクのコピー

2.2.1. GPU とベアメタル
リンクのコピー

2.2.2. GPU と仮想化
リンクのコピー

2.2.3. GPU と vSphere
リンクのコピー

2.2.4. GPU および Red Hat KVM
リンクのコピー

2.2.5. GPU と CSP
リンクのコピー

2.2.6. GPU と Red Hat Device Edge
リンクのコピー

2.4. OpenShift Container Platform の NVIDIA GPU 機能
リンクのコピー

第3章 AMD GPU Operator
リンクのコピー

3.1. AMD GPU Operator について
リンクのコピー

3.2. AMD GPU Operator のインストール
リンクのコピー

3.3. AMD GPU Operator のテスト
リンクのコピー

Legal Notice
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

ハードウェアアクセラレーター

ハードウェアアクセラレーター

第1章 ハードウェアアクセラレーターについてリンクのコピーリンクがクリップボードにコピーされました!

1.1. ハードウェアアクセラレーターリンクのコピーリンクがクリップボードにコピーされました!

第2章 NVIDIA GPU アーキテクチャーリンクのコピーリンクがクリップボードにコピーされました!

2.1. NVIDIA GPU の前提条件リンクのコピーリンクがクリップボードにコピーされました!

2.2. NVIDIA GPU の有効化リンクのコピーリンクがクリップボードにコピーされました!

2.2.1. GPU とベアメタルリンクのコピーリンクがクリップボードにコピーされました!

2.2.2. GPU と仮想化リンクのコピーリンクがクリップボードにコピーされました!

2.2.3. GPU と vSphereリンクのコピーリンクがクリップボードにコピーされました!

2.2.4. GPU および Red Hat KVMリンクのコピーリンクがクリップボードにコピーされました!

2.2.5. GPU と CSPリンクのコピーリンクがクリップボードにコピーされました!

2.2.6. GPU と Red Hat Device Edgeリンクのコピーリンクがクリップボードにコピーされました!

2.3. GPU の共有方法リンクのコピーリンクがクリップボードにコピーされました!

2.3.1. CUDA ストリームリンクのコピーリンクがクリップボードにコピーされました!

2.3.2. タイムスライスリンクのコピーリンクがクリップボードにコピーされました!

2.3.3. CUDA マルチプロセスサービスリンクのコピーリンクがクリップボードにコピーされました!

2.3.4. マルチインスタンス GPUリンクのコピーリンクがクリップボードにコピーされました!

2.3.5. vGPU による仮想化リンクのコピーリンクがクリップボードにコピーされました!

2.4. OpenShift Container Platform の NVIDIA GPU 機能リンクのコピーリンクがクリップボードにコピーされました!

第3章 AMD GPU Operatorリンクのコピーリンクがクリップボードにコピーされました!

3.1. AMD GPU Operator についてリンクのコピーリンクがクリップボードにコピーされました!

3.2. AMD GPU Operator のインストールリンクのコピーリンクがクリップボードにコピーされました!

3.3. AMD GPU Operator のテストリンクのコピーリンクがクリップボードにコピーされました!

Legal Notice リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第1章ハードウェアアクセラレーターについて
リンクのコピー

1.1. ハードウェアアクセラレーター
リンクのコピー

第2章 NVIDIA GPU アーキテクチャー
リンクのコピー

2.1. NVIDIA GPU の前提条件
リンクのコピー

2.2. NVIDIA GPU の有効化
リンクのコピー

2.2.1. GPU とベアメタル
リンクのコピー

2.2.2. GPU と仮想化
リンクのコピー

2.2.3. GPU と vSphere
リンクのコピー

2.2.4. GPU および Red Hat KVM
リンクのコピー

2.2.5. GPU と CSP
リンクのコピー

2.2.6. GPU と Red Hat Device Edge
リンクのコピー

2.3. GPU の共有方法
リンクのコピー

2.3.1. CUDA ストリーム
リンクのコピー

2.3.2. タイムスライス
リンクのコピー

2.3.3. CUDA マルチプロセスサービス
リンクのコピー

2.3.4. マルチインスタンス GPU
リンクのコピー

2.3.5. vGPU による仮想化
リンクのコピー

2.4. OpenShift Container Platform の NVIDIA GPU 機能
リンクのコピー

第3章 AMD GPU Operator
リンクのコピー

3.1. AMD GPU Operator について
リンクのコピー

3.2. AMD GPU Operator のインストール
リンクのコピー

3.3. AMD GPU Operator のテスト
リンクのコピー

Legal Notice
リンクのコピー