2.3. 投機的デコーディングとマルチモーダル推論の有効化


vLLM NVIDIA GPU ServingRuntime for KServe ランタイムを設定して、大規模言語モデル (LLM) の推論時間を最適化するための並列処理技術である投機的デコーディングを使用できます。

ランタイムを設定して、Vision-Language Model (VLM) の推論をサポートすることもできます。VLM は、視覚データとテキストデータの両方を統合するマルチモーダルモデルのサブセットです。

次の手順では、投機的デコーディングとマルチモーダル推論用に vLLM NVIDIA GPU ServingRuntime for KServe をカスタマイズする方法を説明します。

前提条件

  • OpenShift AI 管理者権限を持つユーザーとして OpenShift AI にログインしている。
  • ドラフトモデルで投機的デコーディングに vLLM モデルサービングランタイムを使用している場合は、元のモデルと投機的モデルを S3 互換オブジェクトストレージ内の同じフォルダーに保存している。

手順

  1. シングルモデルサービングプラットフォームへのモデルのデプロイ で説明されている手順に従って、モデルをデプロイします。
  2. Serving runtime フィールドで、vLLM NVIDIA GPU ServingRuntime for KServe を選択します。
  3. プロンプト内での n-gram のマッチングを使用した投機的デコーディング用に vLLM モデルサービングランタイムを設定するには、Configuration parameters セクションの Additional serving runtime arguments に次の引数を追加します。

    --speculative-model=[ngram]
    --num-speculative-tokens=<NUM_SPECULATIVE_TOKENS>
    --ngram-prompt-lookup-max=<NGRAM_PROMPT_LOOKUP_MAX>
    --use-v2-block-manager
    1. <NUM_SPECULATIVE_TOKENS><NGRAM_PROMPT_LOOKUP_MAX> を独自の値に置き換えます。

      注記

      推論スループットは、n-gram による推測に使用されるモデルによって異なります。

  4. ドラフトモデルを使用した投機的デコーディング用に vLLM モデルサービングランタイムを設定するには、Configuration parameters セクションの Additional serving runtime arguments に次の引数を追加します。

    --port=8080
    --served-model-name={{.Name}}
    --distributed-executor-backend=mp
    --model=/mnt/models/<path_to_original_model>
    --speculative-model=/mnt/models/<path_to_speculative_model>
    --num-speculative-tokens=<NUM_SPECULATIVE_TOKENS>
    --use-v2-block-manager
    1. <path_to_speculative_model><path_to_original_model> を、S3 互換オブジェクトストレージ上の投機的モデルと元のモデルへのパスに置き換えます。
    2. <NUM_SPECULATIVE_TOKENS> を独自の値に置き換えます。
  5. マルチモーダル推論用に vLLM モデルサービングランタイムを設定するには、Configuration parameters セクションの Additional serving runtime arguments に次の引数を追加します。

    --trust-remote-code
    注記

    --trust-remote-code 引数は、信頼できるソースからのモデルでのみ使用してください。

  6. Deploy をクリックします。

検証

  • 投機的デコーディング用に vLLM モデルサービングランタイムを設定している場合は、次のサンプルコマンドを使用して、デプロイされたモデルへの API リクエストを確認します。

    curl -v https://<inference_endpoint_url>:443/v1/chat/completions
    -H "Content-Type: application/json"
    -H "Authorization: Bearer <token>"
  • マルチモーダル推論用に vLLM モデルサービングランタイムを設定している場合は、次のサンプルコマンドを使用して、デプロイした Vision-Language Model (VLM) への API リクエストを確認します。

    curl -v https://<inference_endpoint_url>:443/v1/chat/completions
    -H "Content-Type: application/json"
    -H "Authorization: Bearer <token>"
    -d '{"model":"<model_name>",
         "messages":
            [{"role":"<role>",
              "content":
                 [{"type":"text", "text":"<text>"
                  },
                  {"type":"image_url", "image_url":"<image_url_link>"
                  }
                 ]
             }
            ]
        }'
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

Red Hat ドキュメントについて

Legal Notice

Theme

© 2026 Red Hat
トップに戻る