3.4. LlamaStackDistribution インスタンスのデプロイ


LlamaStack とその検索拡張生成 (RAG) 機能を、vLLM によって提供されるデプロイ済みの Llama 3.2 モデルと統合できます。この統合により、大規模言語モデル (LLM) とリアルタイムのデータ取得を組み合わせたインテリジェントなアプリケーションを構築し、より正確でコンテキストに適した応答を AI ワークロードに提供できるようになります。LlamaStackDistribution カスタムリソース (CR) を作成するときは、spec.server.distribution.name フィールドに rh-dev を指定します。

前提条件

  • OpenShift AI で GPU サポートを有効にした。これには、Node Feature Discovery Operator と NVIDIA GPU Operator のインストールが含まれます。詳細は、Node Feature Discovery Operator のインストールNVIDIA GPU の有効化 を参照してください。
  • OpenShift クラスターのクラスター管理者権限を持っている。
  • Red Hat OpenShift AI にログインしている。
  • OpenShift AI で Llama Stack Operator をアクティブ化した。
  • vLLM を使用して推論モデル (llama-3.2-3b-instruct モデルなど) をデプロイし、モデルのデプロイ時に Make deployed models available through an external routeRequire token authentication を選択した。
  • 正しい推論モデル識別子 (例: llama-3-2-3b) がある。
  • モデルのエンドポイント URL があり、その末尾が /v1 である (例: https://llama-32-3b-instruct-predictor:8443/v1)。
  • モデルのエンドポイントにアクセスするために必要な API トークンがある。
  • OpenShift CLI (OpenShift Dedicated) のインストール または OpenShift CLI (Red Hat OpenShift Service on AWS) のインストール の説明に従って、OpenShift コマンドラインインターフェイス (oc) をインストールした。

手順

  1. 新しいターミナルウィンドウを開きます。

    1. CLI から OpenShift クラスターにログインします。
    2. OpenShift Web コンソールの右上隅で、ユーザー名をクリックし、Copy login command を選択します。
    3. ログイン後、Display token をクリックします。
    4. Log in with this token をコピーし、OpenShift コマンドラインインターフェイス (CLI) に貼り付けます。

      $ oc login --token=<token> --server=<openshift_cluster_url>
      Copy to Clipboard Toggle word wrap
  2. 推論モデルの環境変数を含むシークレットを作成します。

    export INFERENCE_MODEL="llama-3-2-3b"
    export VLLM_URL="https://llama-32-3b-instruct-predictor:8443/v1"
    export VLLM_TLS_VERIFY="false" # Use "true" in production!
    export VLLM_API_TOKEN="<token identifier>"
    
    oc create secret generic llama-stack-inference-model-secret \
      --from-literal INFERENCE_MODEL="$INFERENCE_MODEL" \
      --from-literal VLLM_URL="$VLLM_URL" \
      --from-literal VLLM_TLS_VERIFY="$VLLM_TLS_VERIFY" \
      --from-literal VLLM_API_TOKEN="$VLLM_API_TOKEN"
    Copy to Clipboard Toggle word wrap
  3. OpenShift Web コンソールにログインします。
  4. 左側のナビゲーションから、Administrator ビューを選択します。
  5. Quick Create ( quick create icon ) アイコンをクリックし、Import YAML オプションをクリックします。
  6. 表示される YAML エディターで、次の例のようなカスタムリソース定義 (CRD) を作成します。

    apiVersion: llamastack.io/v1alpha1
    kind: LlamaStackDistribution
    metadata:
      name: lsd-llama-milvus
    spec:
      replicas: 1
      server:
        containerSpec:
          resources:
            requests:
              cpu: "250m"
              memory: "500Mi"
            limits:
              cpu: "2"
              memory: "12Gi"
          env:
            - name: INFERENCE_MODEL
              valueFrom:
                secretKeyRef:
                  key: INFERENCE_MODEL
                  name: llama-stack-inference-model-secret
            - name: VLLM_URL
              valueFrom:
                secretKeyRef:
                  key: VLLM_URL
                  name: llama-stack-inference-model-secret
            - name: VLLM_TLS_VERIFY
              valueFrom:
                secretKeyRef:
                  key: VLLM_TLS_VERIFY
                  name: llama-stack-inference-model-secret
            - name: VLLM_API_TOKEN
              valueFrom:
                secretKeyRef:
                  key: VLLM_API_TOKEN
                  name: llama-stack-inference-model-secret
            - name: MILVUS_DB_PATH
              value: ~/.llama/milvus.db
            - name: FMS_ORCHESTRATOR_URL
              value: "http://localhost"
          name: llama-stack
          port: 8321
        distribution:
          name: rh-dev
    Copy to Clipboard Toggle word wrap
    注記

    rh-dev 値は内部イメージ参照です。LlamaStackDistribution カスタムリソースを作成すると、OpenShift AI Operator は rh-dev を適切なレジストリー内のコンテナーイメージに自動的に解決します。この内部イメージ参照により、カスタムリソースを変更することなく、基になるイメージを更新できます。

  7. Create をクリックします。

検証

  • 左側のナビゲーションで、Workloads Pods をクリックし、LlamaStack Pod が正しい namespace で実行されていることを確認します。
  • LlamaStack サーバーが実行中であることを確認するために、Pod 名をクリックし、Logs タブを選択します。次のような出力を探します。

    INFO     2025-05-15 11:23:52,750 __main__:498 server: Listening on ['::', '0.0.0.0']:8321
    INFO:     Started server process [1]
    INFO:     Waiting for application startup.
    INFO     2025-05-15 11:23:52,765 __main__:151 server: Starting up
    INFO:     Application startup complete.
    INFO:     Uvicorn running on http://['::', '0.0.0.0']:8321 (Press CTRL+C to quit)
    Copy to Clipboard Toggle word wrap
  • LlamaStack バックエンドのサービスリソースが namespace に存在し、実行中の Pod を参照していることを確認します。これは、Web コンソールで Networking Services をクリックして確認できます。
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る