3.4. LlamaStackDistribution インスタンスのデプロイ
LlamaStack とその検索拡張生成 (RAG) 機能を、vLLM によって提供されるデプロイ済みの Llama 3.2 モデルと統合できます。この統合により、大規模言語モデル (LLM) とリアルタイムのデータ取得を組み合わせたインテリジェントなアプリケーションを構築し、より正確でコンテキストに適した応答を AI ワークロードに提供できるようになります。LlamaStackDistribution カスタムリソース (CR) を作成するときは、spec.server.distribution.name フィールドに rh-dev を指定します。
前提条件
- OpenShift AI で GPU サポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
- OpenShift クラスターのクラスター管理者権限を持っている。
- Red Hat OpenShift AI にログインしている。
- OpenShift AI で Llama Stack Operator をアクティブ化した。
- vLLM を使用して推論モデル (llama-3.2-3b-instruct モデルなど) をデプロイし、モデルのデプロイ時に Make deployed models available through an external route と Require token authentication を選択した。
- 正しい推論モデル識別子 (例: llama-3-2-3b) がある。
-
モデルのエンドポイント URL があり、その末尾が
/v1である (例:https://llama-32-3b-instruct-predictor:8443/v1)。 - モデルのエンドポイントにアクセスするために必要な API トークンがある。
-
OpenShift CLI (OpenShift Dedicated) のインストール または OpenShift CLI (Red Hat OpenShift Service on AWS) のインストール の説明に従って、OpenShift コマンドラインインターフェイス (
oc) をインストールした。
手順
新しいターミナルウィンドウを開きます。
- CLI から OpenShift クラスターにログインします。
- OpenShift Web コンソールの右上隅で、ユーザー名をクリックし、Copy login command を選択します。
- ログイン後、Display token をクリックします。
Log in with this token をコピーし、OpenShift コマンドラインインターフェイス (CLI) に貼り付けます。
oc login --token=<token> --server=<openshift_cluster_url>
$ oc login --token=<token> --server=<openshift_cluster_url>Copy to Clipboard Copied! Toggle word wrap Toggle overflow
推論モデルの環境変数を含むシークレットを作成します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - OpenShift Web コンソールにログインします。
- 左側のナビゲーションから、Administrator ビューを選択します。
-
Quick Create (
) アイコンをクリックし、Import YAML オプションをクリックします。
表示される YAML エディターで、次の例のようなカスタムリソース定義 (CRD) を作成します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 注記rh-dev値は内部イメージ参照です。LlamaStackDistributionカスタムリソースを作成すると、OpenShift AI Operator はrh-devを適切なレジストリー内のコンテナーイメージに自動的に解決します。この内部イメージ参照により、カスタムリソースを変更することなく、基になるイメージを更新できます。- Create をクリックします。
検証
-
左側のナビゲーションで、Workloads
Pods をクリックし、LlamaStack Pod が正しい namespace で実行されていることを確認します。 LlamaStack サーバーが実行中であることを確認するために、Pod 名をクリックし、Logs タブを選択します。次のような出力を探します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
LlamaStack バックエンドのサービスリソースが namespace に存在し、実行中の Pod を参照していることを確認します。これは、Web コンソールで Networking
Services をクリックして確認できます。