3.3. vLLM モデルのエンドポイントのテスト


デプロイした Llama 3.2 モデルが外部からアクセス可能であることを確認するには、vLLM モデルサーバーがネットワークエンドポイントとして公開されていることを確認します。その後、OpenShift クラスターと OpenShift AI インターフェイスの両方の外部からモデルへのアクセスをテストできます。

重要

デプロイ時に Make deployed models available through an external route を選択した場合、vLLM モデルのエンドポイントはクラスター外部からすでにアクセス可能です。モデルサーバーを手動で公開する必要はありません。たとえば、oc expose を使用して vLLM モデルエンドポイントを手動で公開すると、認証を設定しない限り、セキュアでないルートが作成されます。不正アクセスを防ぐために、セキュリティー制御なしでエンドポイントを公開しないでください。

前提条件

手順

  1. 新しいターミナルウィンドウを開きます。

    1. CLI から OpenShift クラスターにログインします。
    2. OpenShift Web コンソールの右上隅で、ユーザー名をクリックし、Copy login command を選択します。
    3. ログイン後、Display token をクリックします。
    4. Log in with this token をコピーし、OpenShift コマンドラインインターフェイス (CLI) に貼り付けます。

      $ oc login --token=<token> --server=<openshift_cluster_url>
  2. モデルのデプロイ時に Require token authentication を有効にした場合は、トークンを取得します。

    $ export MODEL_TOKEN=$(oc get secret default-name-llama-32-3b-instruct-sa -n <project name> --template={{ .data.token }} | base64 -d)
  3. モデルのエンドポイント URL を取得します。

    • モデルのデプロイ時に Make deployed models available through an external route を有効にした場合は、OpenShift AI ダッシュボードの Model deployments ページで Endpoint details をクリックして、モデルのエンドポイント URL を取得します。
    • さらに、モデルのデプロイ時に Require token authentication を有効にしなかった場合は、次のコマンドを入力してエンドポイント URL を取得することもできます。

      $ export MODEL_ENDPOINT="https://$(oc get route llama-32-3b-instruct -n <project name> --template={{ .spec.host }})"
  4. サンプルのチャット完了リクエストを使用してエンドポイントをテストします。

    • モデルのデプロイ時に Require token authentication を有効にしなかった場合は、チャット完了リクエストを入力します。以下に例を示します。

      $ curl -X POST $MODEL_ENDPOINT/v1/chat/completions \
       -H "Content-Type: application/json" \
       -d '{
       "model": "llama-32-3b-instruct",
       "messages": [
         {
           "role": "user",
           "content": "Hello"
         }
       ]
      }'
    • モデルのデプロイ時に Require token authentication を有効にした場合は、リクエストにトークンを含めます。以下に例を示します。

      curl -s -k $MODEL_ENDPOINT/v1/chat/completions \
      --header "Authorization: Bearer $MODEL_TOKEN" \
      --header 'Content-Type: application/json' \
      -d '{
        "model": "llama-32-3b-instruct",
        "messages": [
          {
            "role": "user",
            "content": "can you tell me a funny joke?"
          }
        ]
      }' | jq .
      注記

      -k フラグは SSL 検証を無効にするため、テスト環境または自己署名証明書を使用する場合にのみ使用してください。

検証

チャットの完了を含む JSON レスポンスを受信したことを確認します。以下に例を示します。

{
  "id": "chatcmpl-05d24b91b08a4b78b0e084d4cc91dd7e",
  "object": "chat.completion",
  "created": 1747279170,
  "model": "llama-32-3b-instruct",
  "choices": [{
    "index": 0,
    "message": {
      "role": "assistant",
      "reasoning_content": null,
      "content": "Hello! It's nice to meet you. Is there something I can help you with or would you like to chat?",
      "tool_calls": []
    },
    "logprobs": null,
    "finish_reason": "stop",
    "stop_reason": null
  }],
  "usage": {
    "prompt_tokens": 37,
    "total_tokens": 62,
    "completion_tokens": 25,
    "prompt_tokens_details": null
  },
  "prompt_logprobs": null
}

例のようなレスポンスが返されない場合は、エンドポイント URL とトークンが正しいことを確認し、モデルのデプロイが実行中であることを確認してください。

Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る