第7章 アクセラレーターの有効化


7.1. NVIDIA GPU を有効にする

OpenShift AI で NVIDIA GPU を使用する前に、NVIDIA GPU Operator をインストールする必要があります。

重要

非接続のセルフマネージドで OpenShift AI を使用している場合は、代わりに NVIDIA GPU の有効化 を参照してください。

前提条件

  • OpenShift クラスターにログインしている。
  • OpenShift クラスターの cluster-admin ロールを持っている。
  • NVIDIA GPU をインストールし、環境で検出されることを確認している。

手順

  1. OpenShift クラスターで GPU サポートを有効にするには、NVIDIA ドキュメントの Red Hat OpenShift Container Platform 上の NVIDIA GPU Operator の手順に従ってください。

    重要

    Node Feature Discovery (NFD) Operator のインストール後に、NodeFeatureDiscovery のインスタンスを作成する必要があります。さらに、NVIDIA GPU Operator のインストール後に、ClusterPolicy を作成し、デフォルト値を入力する必要があります。

  2. migration-gpu-status ConfigMap を削除します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. ProjectAll Projects または redhat-ods-applications に設定して、適切な ConfigMap が表示されるようにします。
    3. migration-gpu-status ConfigMap を検索します。
    4. アクションメニュー (⋮) をクリックし、リストから Delete ConfigMap を選択します。

      Delete ConfigMap ダイアログが表示されます。

    5. ダイアログで、正しい ConfigMap が削除されていることを確認します。
    6. Delete をクリックします。
  3. ダッシュボードの replicaset を再起動します。

    1. OpenShift Web コンソールで、Administrator パースペクティブに切り替えます。
    2. Workloads Deployments をクリックします。
    3. ProjectAll Projects または redhat-ods-applications に設定して、適切なデプロイメントを確認できるようにします。
    4. rhods-dashboard デプロイメントを検索します。
    5. アクションメニュー (⋮) をクリックし、リストから Restart Rollout を選択します。
    6. ロールアウト内のすべての Pod が完全に再起動したことが Status 列に示されるまで待ちます。

検証

  • リセットされた migration-gpu-status インスタンスは、AcceleratorProfile カスタムリソース定義 (CRD) 詳細ページの Instances タブにあります。
  • Administrator パースペクティブから、Operators Installed Operators ページに移動します。次の Operator が表示されていることを確認します。

    • NVIDIA GPU
    • Node Feature Discovery (NFD)
    • カーネルモジュール管理 (KMM)
  • Node Feature Discovery (NFD) および NVIDIA GPU Operator の完全なインストール後に、GPU が正しく検出されます。OpenShift コマンドラインインターフェイス (CLI) は、GPU ワーカーノードの適切な出力を表示します。以下に例を示します。

    # Expected output when the GPU is detected properly
    oc describe node <node name>
    ...
    Capacity:
      cpu:                4
      ephemeral-storage:  313981932Ki
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             16076568Ki
      nvidia.com/gpu:     1
      pods:               250
    Allocatable:
      cpu:                3920m
      ephemeral-storage:  288292006229
      hugepages-1Gi:      0
      hugepages-2Mi:      0
      memory:             12828440Ki
      nvidia.com/gpu:     1
      pods:               250
    Copy to Clipboard Toggle word wrap
注記

OpenShift AI 2.16 では、Red Hat は同じクラスター内でのみアクセラレーターの使用をサポートしています。Red Hat は、アクセラレーター間の Remote Direct Memory Access (RDMA) や、NVIDIA GPUDirect や NVLink などのテクノロジーを使用したネットワーク経由のアクセラレーターの使用をサポートしていません。

NVIDIA GPU Operator をインストールしたら、アクセラレータプロファイルの使用 の説明に従って、アクセラレータープロファイルを作成します。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat