非接続環境での Red Hat AI Inference Server のデプロイ
OpenShift Container Platform とオフラインのミラーイメージレジストリーを使用して、非接続環境に Red Hat AI Inference Server をデプロイします。
概要
はじめに リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform をインストールし、非接続環境でミラーリングコンテナーイメージレジストリーを設定することで、外部のインターネットに接続せずに、Red Hat AI Inference Server を使用して大規模言語モデルを推論できます。
現在、非接続環境の OpenShift Container Platform では、NVIDIA CUDA AI アクセラレーターのみがサポートされています。
第1章 非接続環境でのミラーレジストリーの設定 リンクのコピーリンクがクリップボードにコピーされました!
非接続環境でコンテナーイメージをサービングするには、踏み台ホストで非接続ミラーレジストリーを設定する必要があります。踏み台ホストは、非接続環境とインターネット間の安全なゲートウェイとして機能します。次に、Red Hat のオンラインイメージレジストリーからイメージをミラーリングし、非接続環境で提供します。
前提条件
- 踏み台ホストをデプロイします。
-
踏み台ホストに
ocをインストールする。 - 踏み台ホストに Podman をインストールする。
- 非接続環境に OpenShift Container Platform をインストールする。
手順
- 踏み台ホストでシェルプロンプトを開き、非接続のミラーレジストリーを作成します。
- イメージをミラーリングできるようにする認証情報を設定します。
第2章 モデル推論に必要なイメージのミラーリング リンクのコピーリンクがクリップボードにコピーされました!
非接続環境のミラーレジストリーを作成したら、必要な AI Inference Server イメージ、AI アクセラレーター Operator イメージ、および言語モデルイメージをミラーリングする準備が整います。
前提条件
-
OpenShift CLI (
oc) がインストールされている。 -
cluster-admin権限を持つユーザーとしてログインしている。 - 踏み台ホストにミラーリングレジストリーがインストールされている。
手順
ご使用の環境に対応する次のイメージのバージョンを見つけて、
podmanを使用してイメージをプルします。前の手順でプルした NFD Operator、NVIDIA GPU Operator、および AI Inference Server イメージを含む イメージセット設定のカスタムリソース (CR) を作成します。たとえば、次の
ImageSetConfigurationCR をimageset-config.yamlファイルとして保存します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 必要なイメージをミラーレジストリーにミラーリングします。以下のコマンドを実行します。
oc mirror --config imageset-config.yaml docker://<target_mirror_registry_url> --registry-config <path_to_pull_secret_json>
$ oc mirror --config imageset-config.yaml docker://<target_mirror_registry_url> --registry-config <path_to_pull_secret_json>Copy to Clipboard Copied! Toggle word wrap Toggle overflow または、クラスターに NFD および NVIDIA GPU Operator がすでにインストールされている場合は、AI Inference Server およびモデルイメージのみを設定する
ImageSetConfigurationCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 非接続環境でイメージセットをミラーリングします。
- 更新されたイメージセットを使用するように、非接続クラスターを設定します。
第3章 Node Feature Discovery Operator のインストール リンクのコピーリンクがクリップボードにコピーされました!
クラスターで使用可能な AI アクセラレーターをクラスターが使用できるように、Node Feature Discovery Operator をインストールします。
前提条件
-
OpenShift CLI (
oc) がインストールされている。 -
cluster-admin権限を持つユーザーとしてログインしている。
手順
Node Feature Discovery Operator の
NamespaceCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow OperatorGroupCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow SubscriptionCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow
検証
次のコマンドを実行して、Node Feature Discovery Operator のデプロイメントが成功したことを確認します。
oc get pods -n openshift-nfd
$ oc get pods -n openshift-nfd
出力例
NAME READY STATUS RESTARTS AGE nfd-controller-manager-7f86ccfb58-vgr4x 2/2 Running 0 10m
NAME READY STATUS RESTARTS AGE
nfd-controller-manager-7f86ccfb58-vgr4x 2/2 Running 0 10m
第4章 NVIDIA GPU Operator のインストール リンクのコピーリンクがクリップボードにコピーされました!
クラスターで使用可能な基盤となる NVIDIA CUDA AI アクセラレーターを使用するには、NVIDIA GPU Operator をインストールします。
前提条件
-
OpenShift CLI (
oc) がインストールされている。 -
cluster-admin権限を持つユーザーとしてログインしている。 - Node Feature Discovery Operator がインストールされている。
手順
NVIDIA GPU Operator の
NamespaceCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow OperatorGroupCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow SubscriptionCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow
検証
次のコマンドを実行して、NVIDIA GPU Operator のデプロイメントが成功したことを確認します。
oc get pods -n nvidia-gpu-operator
$ oc get pods -n nvidia-gpu-operator
出力例
第5章 非接続環境でモデルを提供する推論 リンクのコピーリンクがクリップボードにコピーされました!
非接続の OpenShift Container Platform 環境にデプロイされた Red Hat AI Inference Server を使用して、クラスターの永続ストレージから言語モデルの推論を行います。
前提条件
- 非接続クラスターからアクセスできる踏み台ホストにミラーレジストリーがインストールされている。
- モデルと Red Hat AI Inference Server イメージがミラーレジストリーに追加されている。
- 非接続クラスターに Node Feature Discovery Operator と NVIDIA GPU Operator がインストールされている。
手順
非接続クラスターで、ネットワークファイルシステム (NFS) を使用して永続ストレージを設定し、設定した永続ストレージでモデルを使用できるようにします。
注記詳細は、NFS を使用した永続ストレージ を参照してください。
Deploymentカスタムリソース (CR) を作成します。たとえば、次のDeploymentCR は、AI Inference Server を使用して CUDA アクセラレーター上で Granite モデルを提供します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow モデル推論用の
ServiceCR を作成します。以下に例を示します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow オプション: モデルへのパブリックアクセスを有効にするには、
RouteCR を作成します。以下に例を示します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 公開されたルートの URL を取得します。
oc get route granite -n rhaiis-namespace -o jsonpath='{.spec.host}'$ oc get route granite -n rhaiis-namespace -o jsonpath='{.spec.host}'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力例
granite-rhaiis-namespace.apps.example.com
granite-rhaiis-namespace.apps.example.comCopy to Clipboard Copied! Toggle word wrap Toggle overflow 次のコマンドを実行してモデルをクエリーします。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow