vLLM のサーバー引数
Red Hat AI Inference Server を実行するためのサーバー引数
概要
はじめに リンクのコピーリンクがクリップボードにコピーされました!
Red Hat AI Inference Server は、推論サービング用に OpenAI 互換 API サーバーを提供します。引数を使用して、サーバーの動作を制御できます。
第1章 主要な vLLM サーバー引数 リンクのコピーリンクがクリップボードにコピーされました!
お使いのハードウェアで AI Inference Server を実行するように設定するための引数は主に 4 つあります。
-
--tensor-parallel-size: モデルは、ホスト GPU 全体に分散されます。 -
--gpu-memory-utilization: モデルの重み、アクティベーション、および KV キャッシュのアクセラレーターメモリー使用率を調整します。0.0 から 1.0 までの割合として計測され、デフォルトは 0.9 です。たとえば、この値を 0.8 に設定すると、AI Inference Server による GPU メモリー消費を 80% に制限できます。デプロイメントで安定して使える最大値を使用し、スループットを最大化します。 -
--max-model-len: トークンで測定される、モデルの最大コンテキスト長を制限します。モデルのデフォルトのコンテキストが長すぎる場合のメモリーの問題を回避するには、これを設定します。 -
--max-num-batched-tokens: トークンで測定される、ステップごとに処理するトークンの最大バッチサイズを制限します。この値を大きくするとスループットが向上しますが、出力トークンのレイテンシーに影響を及ぼす可能性があります。
たとえば、Red Hat AI Inference Server コンテナーを実行し、vLLM を使用してモデルを提供するには、次のコマンドを実行し、必要に応じてサーバー引数を変更します。
第2章 vLLM サーバーの使用 リンクのコピーリンクがクリップボードにコピーされました!
vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
$ vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
- chat
- 実行中の API サーバーを介してチャット補完を生成します。
- complete
- 実行中の API サーバーを介して、指定されたプロンプトに基づいて、テキスト補完を生成します。
- serve
- vLLM OpenAI Compatible API サーバーを起動します。
- bench
- vLLM bench サブコマンド。
- collect-env
- 環境情報の収集を開始します。
- run-batch
- バッチプロンプトを実行し、結果をファイルに書き込みます。
2.1. vllm serve の引数 リンクのコピーリンクがクリップボードにコピーされました!
vllm serve を実行すると、ローカルサーバーが起動し、言語モデルを読み込み、サービングします。
2.1.1. JSON CLI 引数 リンクのコピーリンクがクリップボードにコピーされました!
-
--json-arg '{"key1": "value1", "key2": {"key3": "value2"}}' -
--json-arg.key1 value1 --json-arg.key2.key3 value2
さらに、リスト要素は + を使用して個別に渡すことができます。
-
--json-arg '{"key4": ["value3", "value4", "value5"]}' -
--json-arg.key4+ value3 --json-arg.key4+='value4,value5'
2.1.2. オプション リンクのコピーリンクがクリップボードにコピーされました!
2.1.2.1. --headless リンクのコピーリンクがクリップボードにコピーされました!
ヘッドレスモードで実行します。詳細は、マルチノードデータ並列のドキュメントを参照してください。
デフォルト: False
2.1.2.2. --api-server-count, -asc リンクのコピーリンクがクリップボードにコピーされました!
実行する API サーバープロセスの数。
デフォルト: 1
2.1.2.3. --config リンクのコピーリンクがクリップボードにコピーされました!
設定ファイルから CLI オプションを読み取ります。https://docs.vllm.ai/en/latest/configuration/serve_args.html のオプションを含む YAML である必要があります。
デフォルト: None
2.1.2.4. --disable-log-stats リンクのコピーリンクがクリップボードにコピーされました!
統計のログ記録を無効にします。
デフォルト: False
2.1.2.5. --enable-log-requests, --no-enable-log-requests リンクのコピーリンクがクリップボードにコピーされました!
ログ要求を有効にします。
デフォルト: False
2.1.2.6. --disable-log-requests, --no-disable-log-requests リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
ログ要求を無効にします。
デフォルト: True
2.1.3. フロントエンド リンクのコピーリンクがクリップボードにコピーされました!
OpenAI 互換フロントエンドサーバーの引数。
2.1.3.1. --host リンクのコピーリンクがクリップボードにコピーされました!
ホスト名。
デフォルト: None
2.1.3.2. --port リンクのコピーリンクがクリップボードにコピーされました!
ポート番号
デフォルト: 8000
2.1.3.3. --uds リンクのコピーリンクがクリップボードにコピーされました!
Unix ドメインソケットパス。設定されている場合、ホストおよびポート引数は無視されます。
デフォルト: None
2.1.3.4. --uvicorn-log-level リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: critical、debug、error、info、trace、warning
uvicorn のログレベル。
デフォルト: info
2.1.3.5. --disable-uvicorn-access-log, --no-disable-uvicorn-access-log リンクのコピーリンクがクリップボードにコピーされました!
uvicorn アクセスログを無効にします。
デフォルト: False
2.1.3.6. --allow-credentials, --no-allow-credentials リンクのコピーリンクがクリップボードにコピーされました!
認証情報を許可します。
デフォルト: False
2.1.3.7. --allowed-origins リンクのコピーリンクがクリップボードにコピーされました!
使用可能なオリジン。
デフォルト: ['*']
2.1.3.8. --allowed-methods リンクのコピーリンクがクリップボードにコピーされました!
使用可能なメソッド。
デフォルト: ['*']
2.1.3.9. --allowed-headers リンクのコピーリンクがクリップボードにコピーされました!
使用可能なヘッダー。
デフォルト: ['*']
2.1.3.10. --api-key リンクのコピーリンクがクリップボードにコピーされました!
指定すると、サーバーはこのキーの 1 つをヘッダーに提示する必要があります。
デフォルト: None
2.1.3.11. --lora-modules リンクのコピーリンクがクリップボードにコピーされました!
LoRA モジュール設定は、'name=path' 形式、JSON 形式、または JSON リスト形式のいずれかです。例 (古い形式): 'name=path'、例 (新しい形式): {"name": "name", "path": "lora_path", "base_model_name": "id"}
デフォルト: None
2.1.3.12. --chat-template リンクのコピーリンクがクリップボードにコピーされました!
チャットテンプレートへのファイルパス、または指定されたモデルの単一行形式のテンプレート。
デフォルト: None
2.1.3.13. --chat-template-content-format リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、openai、string
チャットテンプレート内でメッセージコンテンツをレンダリングする形式。
-
"string" は、コンテンツを文字列としてレンダリングします。例:
"Hello World" -
"openai" は、OpenAI スキーマに似たディクショナリーのリストとしてコンテンツをレンダリングします。例:
[{"type": "text", "text": "Hello world!"}]
デフォルト: auto
2.1.3.14. --trust-request-chat-template、--no-trust-request-chat-template リンクのコピーリンクがクリップボードにコピーされました!
リクエストで渡されたチャットテンプレートを信頼するかどうか。False の場合、サーバーは常に --chat-template で指定されたチャットテンプレートまたはトークナイザーのチャットテンプレートを使用します。
デフォルト: False
2.1.3.15. --response-role リンクのコピーリンクがクリップボードにコピーされました!
request.add_generation_prompt=true の場合に返されるロール名。
デフォルト: assistant
2.1.3.16. --ssl-keyfile リンクのコピーリンクがクリップボードにコピーされました!
SSL キーファイルへのファイルパス。
デフォルト: None
2.1.3.17. --ssl-certfile リンクのコピーリンクがクリップボードにコピーされました!
SSL 証明書ファイルへのファイルパス。
デフォルト: None
2.1.3.18. --ssl-ca-certs リンクのコピーリンクがクリップボードにコピーされました!
CA 証明書ファイル。
デフォルト: None
2.1.3.19. --enable-ssl-refresh, --no-enable-ssl-refresh リンクのコピーリンクがクリップボードにコピーされました!
SSL 証明書ファイルが変更されたときに SSL コンテキストを更新します。
デフォルト: False
2.1.3.20. --ssl-cert-reqs リンクのコピーリンクがクリップボードにコピーされました!
クライアント証明書が必要かどうか (stdlib ssl モジュールを参照)。
デフォルト: 0
2.1.3.21. --root-path リンクのコピーリンクがクリップボードにコピーされました!
アプリケーションがパスベースのルーティングプロキシーの背後にある場合の FastAPI root_path。
デフォルト: None
2.1.3.22. --middleware リンクのコピーリンクがクリップボードにコピーされました!
アプリケーションに適用する追加の ASGI ミドルウェア。複数の --middleware 引数を受け入れます。値はインポートパスである必要があります。関数が提供されている場合、vLLM は @app.middleware('http') を使用してそれをサーバーに追加します。クラスが提供されている場合、vLLM は app.add_middleware() を使用してそれをサーバーに追加します。
デフォルト: []
2.1.3.23. --return-tokens-as-token-ids, --no-return-tokens-as-token-ids リンクのコピーリンクがクリップボードにコピーされました!
--max-logprobs が指定された場合は、単一のトークンを 'token_id:{token_id}' 形式の文字列として表し、JSON でエンコードできないトークンを識別できるようにします。
デフォルト: False
2.1.3.24. --disable-frontend-multiprocessing, --no-disable-frontend-multiprocessing リンクのコピーリンクがクリップボードにコピーされました!
指定すると、モデルサービングエンジンと同じプロセスで OpenAI フロントエンドサーバーが実行されます。
デフォルト: False
2.1.3.25. --enable-request-id-headers, --no-enable-request-id-headers リンクのコピーリンクがクリップボードにコピーされました!
指定すると、API サーバーは応答に X-Request-Id ヘッダーを追加します。
デフォルト: False
2.1.3.26. --enable-auto-tool-choice, --no-enable-auto-tool-choice リンクのコピーリンクがクリップボードにコピーされました!
サポートされているモデルに対して自動ツール選択を有効にします。使用するパーサーを指定するには --tool-call-parser を使用します。
デフォルト: False
2.1.3.27. --exclude-tools-when-tool-choice-none, --no-exclude-tools-when-tool-choice-none リンクのコピーリンクがクリップボードにコピーされました!
指定すると、tool_choice='none' の場合にプロンプトでツール定義を除外します。
デフォルト: False
2.1.3.28. --tool-call-parser リンクのコピーリンクがクリップボードにコピーされました!
使用しているモデルに応じてツール呼び出しパーサーを選択します。これは、モデルによって生成されたツール呼び出しを OpenAI API 形式に解析するために使用されます。--enable-auto-tool-choice に必須です。組み込みのパーサーから任意のオプションを選択することも、--tool-parser-plugin 経由でプラグインを登録することもできます。
デフォルト: None
2.1.3.29. --tool-parser-plugin リンクのコピーリンクがクリップボードにコピーされました!
モデルが生成したツールを OpenAI API 形式に変換するために書かれたツールパーサープラグインを指定します。このプラグインの名前レジスターは --tool-call-parser で使用できます。
デフォルト: ``
2.1.3.30. --tool-server リンクのコピーリンクがクリップボードにコピーされました!
ホスト: ポートのペア (IPv4、IPv6、またはホスト名) のコンマ区切りリスト。例: 127.0.0.1:8000、[::1]:8000、localhost:1234。またはデモ目的の場合は demo です。
デフォルト: None
2.1.3.31. --log-config-file リンクのコピーリンクがクリップボードにコピーされました!
vllm と uvicorn の両方のログ設定 JSON ファイルへのパス
デフォルト: None
2.1.3.32. --max-log-len リンクのコピーリンクがクリップボードにコピーされました!
ログに出力されるプロンプト文字またはプロンプト ID 番号の最大数。デフォルトの None は無制限を意味します。
デフォルト: None
2.1.3.33. --disable-fastapi-docs, --no-disable-fastapi-docs リンクのコピーリンクがクリップボードにコピーされました!
FastAPI の OpenAPI スキーマ、Swagger UI、および ReDoc エンドポイントを無効にします。
デフォルト: False
2.1.3.34. --enable-prompt-tokens-details, --no-enable-prompt-tokens-details リンクのコピーリンクがクリップボードにコピーされました!
True に設定すると、prompt_tokens_details の使用が有効になります。
デフォルト: False
2.1.3.35. --enable-server-load-tracking, --no-enable-server-load-tracking リンクのコピーリンクがクリップボードにコピーされました!
True に設定すると、アプリケーション状態 (管理) で server_load_metrics 追跡が有効になります。
デフォルト: False
2.1.3.36. --enable-force-include-usage, --no-enable-force-include-usage リンクのコピーリンクがクリップボードにコピーされました!
True に設定すると、すべてのリクエストでの使用量が含まれます。
デフォルト: False
2.1.3.37. --enable-tokenizer-info-endpoint, --no-enable-tokenizer-info-endpoint リンクのコピーリンクがクリップボードにコピーされました!
/get_tokenizer_info エンドポイントを有効にします。チャットテンプレートやその他のトークナイザー設定が公開される可能性があります。
デフォルト: False
2.1.3.38. --enable-log-outputs, --no-enable-log-outputs リンクのコピーリンクがクリップボードにコピーされました!
True の場合、モデル出力 (生成結果) をログに記録します。--enable-log-requests が必要です。
デフォルト: False
2.1.3.39. --h11-max-incomplete-event-size リンクのコピーリンクがクリップボードにコピーされました!
h11 パーサーの不完全な HTTP イベント (ヘッダーまたは本文) の最大サイズ (バイト)。ヘッダーの不正使用を軽減するのに役立ちます。
デフォルト: 4194304 (4 MB)
2.1.3.40. --h11-max-header-count リンクのコピーリンクがクリップボードにコピーされました!
h11 パーサーのリクエストで許可される HTTP ヘッダーの最大数。ヘッダーの不正使用を軽減するのに役立ちます。
デフォルト: 256
2.1.3.41. --log-error-stack、--no-log-error-stack リンクのコピーリンクがクリップボードにコピーされました!
True に設定すると、エラー応答のスタックトレースをログに記録します。
デフォルト: False
2.1.4. ModelConfig リンクのコピーリンクがクリップボードにコピーされました!
モデルの設定。
2.1.4.1. --model リンクのコピーリンクがクリップボードにコピーされました!
使用する Hugging Face モデルの名前またはパス。また、served_model_name が指定されていない場合、メトリクス出力の model_name タグの内容としても使用されます。
デフォルト: Qwen/Qwen3-0.6B
2.1.4.2. --runner リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、draft、generate、pooling
使用するモデルランナーのタイプ。各 vLLM インスタンスは、同じモデルを複数のタイプに使用できる場合でも、1 つのモデルランナーのみをサポートします。
デフォルト: auto
2.1.4.3. --convert リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、classify、embed、none、reward
[vllm.model_executor.models.adapters][] で定義されたアダプターを使用してモデルを変換します。最も一般的な使用例は、プーリングタスクに使用するテキスト生成モデルを適応させることです。
デフォルト: auto
2.1.4.4. --task リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、classify、draft、embed、embedding、generate、reward、score、transcription、None
この引数は非推奨です。
モデルを使用するタスク。モデルが複数のモデルランナーをサポートしている場合、これを使用して実行するモデルランナーを選択します。
モデルは、同じモデルランナーを使用して他のタスクをサポートする場合があることに注意してください。
デフォルト: None
2.1.4.5. --tokenizer リンクのコピーリンクがクリップボードにコピーされました!
使用する Hugging Face トークナイザーの名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
デフォルト: None
2.1.4.6. --tokenizer-mode リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、custom、mistral、slow
Tokenizer モード:
- "auto" は、利用可能な場合は速度の早いトークナイザーを使用します。
- "slow" は常に速度の遅いトークナイザーを使用します。
-
"mistral" は常に
mistral_commonのトークナイザーを使用します。 - "custom" は --tokenizer を使用して、事前登録済みのトークナイザーを選択します。
デフォルト: auto
2.1.4.7. --trust-remote-code, --no-trust-remote-code リンクのコピーリンクがクリップボードにコピーされました!
モデルとトークナイザーをダウンロードするときは、リモートコード (例: HuggingFace から) を信頼します。
デフォルト: False
2.1.4.8. --dtype リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、bfloat16、float、float16、float32、half
モデルの重みとアクティベーションのデータ型。
- "auto" は、FP32 および FP16 モデルでは FP16 精度を使用し、BF16 モデルでは BF16 精度を使用します。
- "half" は、半精度の FP16 を使用します。AWQ 量子化に推奨されます。
- "float16" は "half" と同じです。
- "bfloat16" は精度と範囲のバランスを取ります。
- "float" は FP32 の精度の省略形です。
- "float32" は FP32 精度を使用します。
デフォルト: auto
2.1.4.9. --seed リンクのコピーリンクがクリップボードにコピーされました!
再現性のためのランダムシード。V0 では None に初期化されますが、V1 では 0 に初期化されます。
デフォルト: None
2.1.4.10. --hf-config-path リンクのコピーリンクがクリップボードにコピーされました!
使用する Hugging Face 設定の名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
デフォルト: None
2.1.4.11. --allowed-local-media-path リンクのコピーリンクがクリップボードにコピーされました!
API リクエストがサーバーファイルシステムで指定されたディレクトリーからローカルイメージまたはビデオを読み取ることを許可します。これはセキュリティー上のリスクです。信頼できる環境でのみ有効にする必要があります。
デフォルト: ``
2.1.4.12. --allowed-media-domains リンクのコピーリンクがクリップボードにコピーされました!
設定されている場合、このドメインに属するメディア URL のみがマルチモーダル入力に使用できます。
デフォルト: None
2.1.4.13. --revision リンクのコピーリンクがクリップボードにコピーされました!
使用する特定のモデルバージョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合は、デフォルトのバージョンが使用されます。
デフォルト: None
2.1.4.14. --code-revision リンクのコピーリンクがクリップボードにコピーされました!
Hugging Face Hub のモデルコードに使用する特定のリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合は、デフォルトのバージョンが使用されます。
デフォルト: None
2.1.4.15. --rope-scaling リンクのコピーリンクがクリップボードにコピーされました!
RoPE スケーリング設定。例: {"rope_type":"dynamic","factor":2.0}。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: {}
2.1.4.16. --rope-theta リンクのコピーリンクがクリップボードにコピーされました!
RoPE シータ。rope_scaling で使用します。場合によっては、RoPE シータを変更すると、スケールモデルのパフォーマンスが向上します。
デフォルト: None
2.1.4.17. --tokenizer-revision リンクのコピーリンクがクリップボードにコピーされました!
Hugging Face Hub のトークナイザーに使用する特定のリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合は、デフォルトのバージョンが使用されます。
デフォルト: None
2.1.4.18. --max-model-len リンクのコピーリンクがクリップボードにコピーされました!
モデルコンテキストの長さ (プロンプトと出力)。指定されていない場合は、モデル設定から自動的に派生されます。
--max-model-len 経由で渡す場合、人間が読める形式の k/m/g/K/M/G をサポートします。例:
- 1k -> 1000
- 1K -> 1024
- 25.6k -> 25,600
'1k'、'2M' などの人間が読める整数を解析します。小数値を小数乗数とともに含めます。
Examples: - '1k' -> 1,000 - '1K' -> 1,024 - '25.6k' -> 25,600
Examples:
- '1k' -> 1,000
- '1K' -> 1,024
- '25.6k' -> 25,600
デフォルト: None
2.1.4.19. --quantization, -q リンクのコピーリンクがクリップボードにコピーされました!
重みを量子化するために使用される方法。None の場合は、まずモデル設定ファイルの quantization_config 属性を確認します。None の場合、モデルの重みは量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。
デフォルト: None
2.1.4.20. --enforce-eager, --no-enforce-eager リンクのコピーリンクがクリップボードにコピーされました!
常に eager-mode の PyTorch を使用するかどうか。True の場合、CUDA グラフを無効にして、常に eager モードでモデルを実行します。False の場合、パフォーマンスと柔軟性を最大化するために、CUDA グラフとハイブリッドの eager 実行を使用します。
デフォルト: False
2.1.4.21. --max-logprobs リンクのコピーリンクがクリップボードにコピーされました!
SamplingParams で logprobs が指定された場合に返される対数確率の最大数。デフォルト値は、OpenAI Chat Completions API のデフォルトです。-1 は上限がないことを意味します。つまり、すべての (output_length * vocab_size) logprob を返すことができ、OOM が発生する可能性があります。
デフォルト: 20
2.1.4.22. --logprobs-mode リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: processed_logits、processed_logprobs、raw_logits、raw_logprobs
logprobs および prompt_logprobs で返されるコンテンツを示します。サポートされているモード: 1) raw_logprobs、2) processed_logprobs、3) raw_logits、4) processed_logits。Raw とは、不適切な単語を処理するようなロジットプロセッサーを、適用する前の値を指します。Processed とは、温度や top_k/top_p など、すべてのプロセッサーを適用した後の値を意味します。
デフォルト: raw_logprobs
2.1.4.23. --disable-sliding-window, --no-disable-sliding-window リンクのコピーリンクがクリップボードにコピーされました!
スライディングウィンドウを無効にするかどうか。True の場合、モデルのスライディングウィンドウ機能が無効になり、スライディングウィンドウのサイズが上限になります。モデルがスライディングウィンドウをサポートしていない場合、この引数は無視されます。
デフォルト: False
2.1.4.24. --disable-cascade-attn, --no-disable-cascade-attn リンクのコピーリンクがクリップボードにコピーされました!
V1 のカスケードアテンションを無効にします。カスケードアテンションは数学的な正確性を確保します。ただし、これを無効にすると、数値的な問題が発生する可能性を回避するのに役立ちます。これを False に設定しても、カスケードアテンションはヒューリスティックによって有益であると判断された場合にのみ使用されることに注意してください。
デフォルト: False
2.1.4.25. --skip-tokenizer-init, --no-skip-tokenizer-init リンクのコピーリンクがクリップボードにコピーされました!
tokenizer および detokenizer の初期化をスキップします。入力には、有効な prompt_token_ids が含まれており、prompt は None である必要があります。生成された出力には、トークン ID が含まれます。
デフォルト: False
2.1.4.26. --enable-prompt-embeds, --no-enable-prompt-embeds リンクのコピーリンクがクリップボードにコピーされました!
True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。
デフォルト: False
2.1.4.27. --served-model-name リンクのコピーリンクがクリップボードにコピーされました!
API で使用されるモデル名。複数の名前が指定された場合、サーバーは指定された名前のいずれかに応答します。応答のモデルフィールド内のモデル名は、このリストの最初の名前です。指定されていない場合、モデル名は --model 引数と同じになります。この名前は、Prometheus メトリクスの model_name タグの内容でも使用されることに注意してください。複数の名前が指定されている場合、メトリクスタグは最初の名前を取得します。
デフォルト: None
2.1.4.28. --config-format リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、hf、mistral
ロードするモデル設定の形式。
- "auto" は、可能な場合は hf 形式で設定をロードしようとし、そうでない場合は mistral 形式でロードしようとします。
- "hf" は、hf 形式で設定をロードします。
- "mistral" は、設定を mistral 形式で読み込みます。
デフォルト: auto
2.1.4.29. --hf-token リンクのコピーリンクがクリップボードにコピーされました!
リモートファイルの HTTP ベアラー認可として使用するトークン。True の場合、huggingface-cli login の実行時に生成されたトークン (~/.huggingface に保存) を使用します。
デフォルト: None
2.1.4.30. --hf-overrides リンクのコピーリンクがクリップボードにコピーされました!
ディクショナリーの場合は、Hugging Face 設定に転送される引数が含まれます。呼び出し可能な場合は、HuggingFace 設定を更新するために呼び出されます。
デフォルト: {}
2.1.4.31. --pooler-config リンクのコピーリンクがクリップボードにコピーされました!
プーリングモデルでの出力プーリングの動作を制御するプーラー設定。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.4.32. --override-pooler-config リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
代わりに pooler_config を使用してください。このフィールドは、v0.12.0 または v1.0.0 のうち先に到達したバージョンで削除されます。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.4.33. --logits-processor-pattern リンクのコピーリンクがクリップボードにコピーされました!
有効な logits プロセッサー修飾名を指定するオプションの正規表現パターンで、logits_processors 追加補完引数で渡すことができます。デフォルトは None で、プロセッサーは使用できません。
デフォルト: None
2.1.4.34. --generation-config リンクのコピーリンクがクリップボードにコピーされました!
生成設定へのフォルダーパス。デフォルトは "auto" で、生成設定はモデルパスから読み込まれます。"vllm" に設定すると、生成設定はロードされず、vLLM のデフォルトが使用されます。フォルダーパスに設定すると、指定されたフォルダーパスから生成設定が読み込まれます。生成設定で max_new_tokens が指定されている場合は、すべてのリクエストの出力トークンの数にサーバー全体の制限が設定されます。
デフォルト: auto
2.1.4.35. --override-generation-config リンクのコピーリンクがクリップボードにコピーされました!
生成設定をオーバーライドし、(ない場合は) 設定します。たとえば、{"temperature": 0.5}。--generation-config auto と使用すると、オーバーライドパラメーターはモデルのデフォルト設定とマージされます。--generation-config vllm と使用すると、オーバーライドパラメーターのみが使用されます。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: {}
2.1.4.36. --enable-sleep-mode, --no-enable-sleep-mode リンクのコピーリンクがクリップボードにコピーされました!
エンジンのスリープモードを有効にします (CUDA プラットフォームのみがサポートされます)。
デフォルト: False
2.1.4.37. --model-impl リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、terratorch、transformers、vllm
使用するモデルの実装。
- "auto" は、存在する場合は vLLM 実装の使用を試み、vLLM 実装が利用できない場合は Transformers 実装にフォールバックします。
- "vllm" は vLLM モデル実装を使用します。
- "transformers" はトランスフォーマーモデル実装を使用します。
- "terratorch" は TerraTorch モデル実装を使用します。
デフォルト: auto
2.1.4.38. --override-attention-dtype リンクのコピーリンクがクリップボードにコピーされました!
注意のために dtype をオーバーライドする
デフォルト: None
2.1.4.39. --logits-processors リンクのコピーリンクがクリップボードにコピーされました!
1 つ以上のロジットプロセッサーの完全修飾クラス名またはクラス定義
デフォルト: None
2.1.4.40. --io-processor-plugin リンクのコピーリンクがクリップボードにコピーされました!
モデルの起動時にロードする IOProcessor プラグイン名
デフォルト: None
2.1.5. LoadConfig リンクのコピーリンクがクリップボードにコピーされました!
モデルの重みを読み込むための設定。
2.1.5.1. --load-format リンクのコピーリンクがクリップボードにコピーされました!
読み込むモデルの重みの形式。
- "auto" は safetensors 形式で重みをロードしようとし、safetensors 形式が利用できない場合は pytorch bin 形式にフォールバックします。
- "pt" は重みを pytorch bin 形式で読み込みます。
- "safetensors" は重みを safetensors 形式で読み込みます。
- "npcache" は重みを pytorch 形式で読み込み、numpy キャッシュを保存して読み込みを高速化します。
- "dummy" は重みをランダムな値で初期化します。これは主にプロファイリング用です。
- "tensorizer" は高速な重み読み込みのために CoreWeave の tensorizer ライブラリーを使用します。詳細は、例のセクションの Tensorize vLLM Model スクリプトを参照してください。
- "runai_streamer" は Run:ai Model Streamer を使用して Safetensors の重みを読み込みます。
- "bitsandbytes" は bitsandbytes 量子化を使用して重みを読み込みます。
- "sharded_state" は事前に分割されたチェックポイントファイルから重みを読み込み、テンソル並列モデルの効率的な読み込みをサポートします。
- "gguf" は GGUF 形式のファイルから重みを読み込みます (詳細は https://github.com/ggml-org/ggml/blob/master/docs/gguf.md で指定されています)。
- "mistral" は Mistral モデルで使用される統合 safetensors から重みを読み込みます。
- その他のカスタム値はプラグインを介してサポートできます。
デフォルト: auto
2.1.5.2. --download-dir リンクのコピーリンクがクリップボードにコピーされました!
重みをダウンロードしてロードするディレクトリー。デフォルトは Hugging Face のデフォルトのキャッシュディレクトリーです。
デフォルト: None
2.1.5.3. --safetensors-load-strategy リンクのコピーリンクがクリップボードにコピーされました!
セーフテンソルの重みに対するロードストラテジーを指定します。
- "lazy" (デフォルト): 重みはファイルからメモリーにマップされます。これによりオンデマンドの読み込みが可能になり、ローカルストレージ上のモデルを使用する場合に非常に効率的になります。
- "eager": ロードする前に、ファイル全体を CPU メモリーに事前に読み込みます。これは、非効率的なランダム読み取りを回避し、モデルの初期化を大幅に高速化するため、ネットワークファイルシステム (Lustre、NFS など) 上のモデルに推奨されます。ただし、CPU RAM の使用量が増えます。
デフォルト: lazy
2.1.5.4. --model-loader-extra-config リンクのコピーリンクがクリップボードにコピーされました!
モデルローダーの追加設定。これは、選択した load_format に対応するモデルローダーに渡されます。
デフォルト: {}
2.1.5.5. --ignore-patterns リンクのコピーリンクがクリップボードにコピーされました!
モデルをロードするときに無視するパターンのリスト。ラマのチェックポイントの繰り返し読み込みを避けるため、デフォルトは "original/*/" になります。
デフォルト: None
2.1.5.6. --use-tqdm-on-load, --no-use-tqdm-on-load リンクのコピーリンクがクリップボードにコピーされました!
モデルの重みを読み込むときに進捗バーを表示するために tqdm を有効にするかどうか。
デフォルト: True
2.1.5.7. --pt-load-map-location リンクのコピーリンクがクリップボードにコピーされました!
pt_load_map_location: pytorch チェックポイントをロードするためのマップの場所。チェックポイントのロードをサポートするために、"cuda" などの特定のデバイスでのみロードできます。これは、{"": "cuda"} と同等です。サポートされている別の形式は、GPU 1 から GPU 0 など、異なるデバイスからのマッピングです ( {"cuda:1": "cuda:0"})。コマンドラインから渡す場合、辞書内の文字列は json 解析のために二重引用符で囲む必要があることに注意してください。詳細は、https://pytorch.org/docs/stable/generated/torch.load.html の map_location のオリジナルドキュメントを参照してください。
デフォルト: cpu
2.1.6. StructuredOutputsConfig リンクのコピーリンクがクリップボードにコピーされました!
エンジンの構造化された出力設定を含むデータクラス。
2.1.6.1. --reasoning-parser リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: deepseek_r1、glm45、openai_gptoss、granite、hunyuan_a13b、mistral、qwen3、seed_oss、step3
使用しているモデルに応じて推論パーサーを選択します。これは推論コンテンツを OpenAI API 形式に解析するために使用されます。
デフォルト: ``
2.1.6.2. --guided-decoding-backend リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--guided-decoding-backend は v0.12.0 で削除されます。
デフォルト: None
2.1.6.3. --guided-decoding-disable-fallback リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--guided-decoding-disable-fallback は v0.12.0 で削除されます。
デフォルト: None
2.1.6.4. --guided-decoding-disable-any-whitespace リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--guided-decoding-disable-any-whitespace は v0.12.0 で削除されます。
デフォルト: None
2.1.6.5. --guided-decoding-disable-additional-properties リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--guided-decoding-disable-additional-properties は v0.12.0 で削除されます。
デフォルト: None
2.1.7. ParallelConfig リンクのコピーリンクがクリップボードにコピーされました!
分散実行の設定。
2.1.7.1. --distributed-executor-backend リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: external_launcher、mp、ray、uni
分散モデルワーカーに使用するバックエンド。"ray" または "mp" (マルチプロセッシング))。pipeline_parallel_size と tensor_parallel_size の積が使用可能な GPU の数以下の場合、単一のホストで処理を継続するために "mp" が使用されます。それ以外の場合、Ray がインストールされている場合はデフォルトで "ray" になり、そうでない場合は失敗します。tpu は分散推論に対して Ray のみをサポートすることに注意してください。
デフォルト: None
2.1.7.2. --pipeline-parallel-size, -pp リンクのコピーリンクがクリップボードにコピーされました!
パイプライン並列グループの数。
デフォルト: 1
2.1.7.3. --tensor-parallel-size, -tp リンクのコピーリンクがクリップボードにコピーされました!
テンソル並列グループの数。
デフォルト: 1
2.1.7.4. --decode-context-parallel-size、-dcp リンクのコピーリンクがクリップボードにコピーされました!
デコードコンテキスト並列グループの数。ワールドサイズは dcp によって変更されないため、TP グループの GPU を単純に再利用し、tp_size は dcp_size で割り切れる必要があります。
デフォルト: 1
2.1.7.5. --data-parallel-size, -dp リンクのコピーリンクがクリップボードにコピーされました!
データ並列グループの数。MoE レイヤーは、テンソル並列サイズとデータ並列サイズの積に応じて分割されます。
デフォルト: 1
2.1.7.6. --data-parallel-rank, -dpn リンクのコピーリンクがクリップボードにコピーされました!
このインスタンスのデータ並列ランク。設定すると、外部ロードバランサーモードが有効になります。
デフォルト: None
2.1.7.7. --data-parallel-start-rank, -dpr リンクのコピーリンクがクリップボードにコピーされました!
セカンダリーノードのデータ並列ランクを開始します。
デフォルト: None
2.1.7.8. --data-parallel-size-local, -dpl リンクのコピーリンクがクリップボードにコピーされました!
このノードで実行されるデータ並列レプリカの数。
デフォルト: None
2.1.7.9. --data-parallel-address, -dpa リンクのコピーリンクがクリップボードにコピーされました!
データ並列クラスターのヘッドノードのアドレス。
デフォルト: None
2.1.7.10. --data-parallel-rpc-port, -dpp リンクのコピーリンクがクリップボードにコピーされました!
データ並列 RPC 通信用のポート。
デフォルト: None
2.1.7.11. --data-parallel-backend, -dpb リンクのコピーリンクがクリップボードにコピーされました!
データ並列のバックエンド ("mp" または "ray")。
デフォルト: mp
2.1.7.12. --data-parallel-hybrid-lb, --no-data-parallel-hybrid-lb リンクのコピーリンクがクリップボードにコピーされました!
"hybrid" DP LB モードを使用するかどうか。オンラインサービングと data_parallel_size > 0 の場合にのみ適用されます。AsyncLLM および API サーバーを「ノードごと」に実行できるようにします。vLLM はローカルデータ並列ランク間で負荷分散しますが、外部 LB は vLLM ノード/レプリカ間で負荷分散します。--data-parallel-start-rank と組み合わせて明示的に設定します。
デフォルト: False
2.1.7.13. --enable-expert-parallel, --no-enable-expert-parallel リンクのコピーリンクがクリップボードにコピーされました!
MoE レイヤーにはテンソル並列処理ではなくエキスパート並列処理を使用します。
デフォルト: False
2.1.7.14. --enable-dbo、--no-enable-dbo リンクのコピーリンクがクリップボードにコピーされました!
モデルエグゼキューターの二重バッチ重複を有効にします。
デフォルト: False
2.1.7.15. --dbo-decode-token-threshold リンクのコピーリンクがクリップボードにコピーされました!
デコードのみを含むバッチの二重バッチ重複のしきい値。リクエスト内のトークンの数がこのしきい値より大きい場合は、マイクロバッチ処理が使用されます。それ以外の場合、リクエストは単一のバッチで処理されます。
デフォルト 32
2.1.7.16. --dbo-prefill-token-threshold リンクのコピーリンクがクリップボードにコピーされました!
1 つ以上のプリフィルを含むバッチに対する、二重バッチ重複のしきい値。リクエスト内のトークンの数がこのしきい値より大きい場合は、マイクロバッチ処理が使用されます。それ以外の場合、リクエストは単一のバッチで処理されます。
デフォルト 512
2.1.7.17. --enable-eplb, --no-enable-eplb リンクのコピーリンクがクリップボードにコピーされました!
MoE レイヤーのエキスパート並列負荷分散を有効にします。
デフォルト: False
2.1.7.18. --eplb-config リンクのコピーリンクがクリップボードにコピーされました!
エキスパート並列処理設定。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: EPLBConfig(window_size=1000, step_interval=3000, num_redundant_experts=0, log_balancedness=False)
2.1.7.19. --expert-placement-strategy リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: linear、round_robin
MoE レイヤーの expert 配置ストラテジー:
- "linear": expert は連続的に配置されます。たとえば experts が 4 つ、ranks が 2 つある場合、rank 0 には experts [0, 1] が、rank 1 には experts [2, 3] が割り当てられます。
- "round_robin": expert はラウンドロビン方式で配置されます。たとえば experts が 4 つ、ranks が 2 つある場合、rank 0 には experts [0, 2] が、rank 1 には experts [1, 3] が割り当てられます。このストラテジーは、冗長なエキスパートを持たないグループ化されたエキスパートモデルの負荷分散を改善するのに役立ちます。
デフォルト: linear
2.1.7.20. --num-redundant-experts リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--num-redundant-experts は v0.12.0 で削除されます。
デフォルト: None
2.1.7.21. --eplb-window-size リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--eplb-window-size は v0.12.0 で削除されます。
デフォルト: None
2.1.7.22. --eplb-step-interval リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--eplb-step-interval は v0.12.0 で削除されます。
デフォルト: None
2.1.7.23. --eplb-log-balancedness, --no-eplb-log-balancedness リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
--eplb-log-balancedness は v0.12.0 で削除されます。
デフォルト: None
2.1.7.24. --max-parallel-loading-workers リンクのコピーリンクがクリップボードにコピーされました!
モデルを複数のバッチで順番にロードする場合の並列ロードワーカーの最大数。テンソル並列および大規模モデルを使用するときに RAM OOM を回避します。
デフォルト: None
2.1.7.25. --ray-workers-use-nsight, --no-ray-workers-use-nsight リンクのコピーリンクがクリップボードにコピーされました!
nsight を使用して Ray ワーカーをプロファイリングするかどうかは、https://docs.ray.io/en/latest/ray -observability/user-guides/profiling.html#profiling-nsight-profiler を参照してください。
デフォルト: False
2.1.7.26. --disable-custom-all-reduce, --no-disable-custom-all-reduce リンクのコピーリンクがクリップボードにコピーされました!
カスタムの all-reduce カーネルを無効にして、NCCL にフォールバックします。
デフォルト: False
2.1.7.27. --worker-cls リンクのコピーリンクがクリップボードにコピーされました!
使用するワーカークラスの完全な名前。"auto" の場合、ワーカークラスはプラットフォームに基づいて決定されます。
デフォルト: auto
2.1.7.28. --worker-extension-cls リンクのコピーリンクがクリップボードにコピーされました!
使用するワーカー拡張クラスの完全な名前。ワーカー拡張クラスは、ワーカークラスによって動的に継承されます。これは、collective_rpc 呼び出しで使用するために、ワーカークラスに新しい属性とメソッドを注入するために使用されます。
デフォルト: ``
2.1.7.29. --enable-multimodal-encoder-data-parallel リンクのコピーリンクがクリップボードにコピーされました!
デフォルト: False
2.1.8. CacheConfig リンクのコピーリンクがクリップボードにコピーされました!
KV キャッシュの設定。
2.1.8.1. --block-size リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: 1、8、16、32、64、128
連続するキャッシュブロックのサイズ (トークン数)。CUDA デバイスでは、最大 32 のブロックサイズのみがサポートされます。
この設定には静的なデフォルトはありません。ユーザーが指定しない場合は、現在のプラットフォームに基づいて Platform.check_and_update_config() で設定されます。
デフォルト: None
2.1.8.2. --gpu-memory-utilization リンクのコピーリンクがクリップボードにコピーされました!
モデルエグゼキューターに使用される GPU メモリーの割合。範囲は 0 - 1 です。たとえば、値が 0.5 の場合、GPU メモリーの使用率は 50%% になります。指定しない場合は、デフォルト値 0.9 が使用されます。これはインスタンスごとの制限であり、現在の vLLM インスタンスにのみ適用されます。同じ GPU 上で別の vLLM インスタンスが実行されていても問題ありません。たとえば、同じ GPU 上で 2 つの vLLM インスタンスを実行している場合、各インスタンスの GPU メモリー使用率を 0.5 に設定できます。
デフォルト: 0.9
2.1.8.3. --kv-cache-memory-bytes リンクのコピーリンクがクリップボードにコピーされました!
GPU あたりの KV キャッシュのサイズ (バイト単位)。デフォルトでは、これは None に設定されており、vllm は gpu_memory_utilization に基づいて kv キャッシュサイズを自動的に推測できます。ただし、ユーザーは kv キャッシュメモリーのサイズを手動で指定することもできます。kv_cache_memory_bytes を使用すると、gpu_memory_memory_utilization を使用する場合と比較して、使用されるメモリーの量をより細かく制御できます。kv_cache_memory_bytes (None 以外の場合) は gpu_memory_utilization を無視することに注意してください。
'1k'、'2M' などの人間が読める整数を解析します。小数値を小数乗数とともに含めます。
Examples: - '1k' -> 1,000 - '1K' -> 1,024 - '25.6k' -> 25,600
Examples:
- '1k' -> 1,000
- '1K' -> 1,024
- '25.6k' -> 25,600
デフォルト: None
2.1.8.4. --swap-space リンクのコピーリンクがクリップボードにコピーされました!
GPU あたりの CPU スワップ領域のサイズ (GiB 単位)。
デフォルト: 4
2.1.8.5. --kv-cache-dtype リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、bfloat16、fp8、fp8_e4m3、fp8_e5m2、fp8_inc
kv キャッシュストレージのデータタイプ。"auto" の場合は、モデルデータ型を使用します。CUDA 11.8 以降は fp8 (=fp8_e4m3) および fp8_e5m2 をサポートします。ROCm (AMD GPU) は fp8 (=fp8_e4m3) をサポートします。Intel Gaudi (HPU) は fp8 (fp8_inc を使用) をサポートします。一部のモデル (DeepSeekV3.2 など) はデフォルトで fp8 に設定されており、代わりに bfloat16 を使用するには bfloat16 に設定します。これは、デフォルトで fp8 に設定されていないモデルでは無効なオプションです。
デフォルト: auto
2.1.8.6. --num-gpu-blocks-override リンクのコピーリンクがクリップボードにコピーされました!
使用する GPU ブロックの数。指定されている場合、プロファイルされた num_gpu_blocks がオーバーライドされます。None の場合は何も行いません。プリエンプションのテストに使用されます。
デフォルト: None
2.1.8.7. --enable-prefix-caching, --no-enable-prefix-caching リンクのコピーリンクがクリップボードにコピーされました!
接頭辞キャッシュを有効にするかどうか。V1 ではデフォルトで有効になっています。
デフォルト: None
2.1.8.8. --prefix-caching-hash-algo リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: sha256、sha256_cbor
接頭辞キャッシュのハッシュアルゴリズムを設定します。
- "sha256" はハッシュ化の前にオブジェクトのシリアライゼーションに Pickle を使用します。
- "sha256_cbor" は、再現可能で言語間で互換性のあるハッシュを提供します。標準 CBOR を使用してオブジェクトをシリアル化し、SHA-256 でハッシュします。
デフォルト: sha256
2.1.8.9. --cpu-offload-gb リンクのコピーリンクがクリップボードにコピーされました!
GPU ごとに CPU にオフロードするスペース (GiB 単位)。デフォルトは 0 で、オフロードがないことを意味します。直感的に言えば、この議論は GPU メモリーサイズを増やすための仮想的な方法と見ることができます。たとえば、24 GB の GPU が 1 つあり、これを 10 に設定すると、実質的には 34 GB の GPU と考えることができます。次に、重みが BF16 の 13B モデルをロードできますが、これには少なくとも 26GB の GPU メモリーが必要です。モデルの各フォワードパスでは、モデルの一部が CPU メモリーから GPU メモリーにオンザフライでロードされるため、高速な CPU-GPU 相互接続が必要になることに注意してください。
デフォルト: 0
2.1.8.10. --calculate-kv-scales, --no-calculate-kv-scales リンクのコピーリンクがクリップボードにコピーされました!
これにより、kv_cache_dtype が fp8 の場合に k_scale と v_scale の動的な計算が可能になります。False の場合、スケールはモデルチェックポイントからロードされます (利用可能な場合)。それ以外の場合、スケールのデフォルトは 1.0 です。
デフォルト: False
2.1.8.11. --kv-sharing-fast-prefill, --no-kv-sharing-fast-prefill リンクのコピーリンクがクリップボードにコピーされました!
この機能は現在開発中であり、このフラグを有効にすると事前入力の最適化は行われません。
YOCO (https://arxiv.org/abs/2405.05254) などの一部の KV 共有設定では、一部のレイヤーが事前入力に対応するトークンをスキップできます。このフラグは、一部のモデル (Gemma3n など) でこの最適化を実装するために必要なメタデータで、適格なレイヤーのアテンションメタデータをオーバーライドできるようにします。
デフォルト: False
2.1.8.12. --mamba-cache-dtype リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、float32
Mamba キャッシュに使用するデータタイプ (conv と ssm 状態の両方)。'auto' に設定すると、データ型はモデル設定から推測されます。
デフォルト: auto
2.1.8.13. --mamba-ssm-cache-dtype リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、float32
Mamba キャッシュに使用するデータ型 (ssm 状態のみ、conv 状態は引き続き mamba_cache_dtype によって制御されます)。'auto' に設定すると、ssm 状態のデータタイプは mamba_cache_dtype によって決定されます。
デフォルト: auto
2.1.9. MultiModalConfig リンクのコピーリンクがクリップボードにコピーされました!
マルチモーダルモデルの動作を制御します。
2.1.9.1. --limit-mm-per-prompt リンクのコピーリンクがクリップボードにコピーされました!
各モダリティーのプロンプトごとに許容可能な入力項目の最大数。各モダリティーのデフォルトは 1 (V0) または 999 (V1) です。
たとえば、プロンプトごとに最大 16 枚の画像と 2 本のビデオを使用できるようにするには、{"image": 16, "video": 2} と指定します。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: {}
2.1.9.2. --media-io-kwargs リンクのコピーリンクがクリップボードにコピーされました!
メディア入力を処理するために渡される追加の引数。モダリティーによってキーが付けられます。たとえば、ビデオの num_frames を設定するには、--media-io-kwargs '{"video": {"num_frames": 40} }' を設定します。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: {}
2.1.9.3. --mm-processor-kwargs リンクのコピーリンクがクリップボードにコピーされました!
マルチモーダルデータのモデルのプロセッサー (イメージプロセッサーなど) に転送される引数。transformers.AutoProcessor.from_pretrained から取得されたマルチモーダルプロセッサーのオーバーライド。
使用可能なオーバーライドは、実行中のモデルによって異なります。
たとえば、Phi-3-Vision の場合: {"num_crops": 4}。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.9.4. --mm-processor-cache-gb リンクのコピーリンクがクリップボードにコピーされました!
過去のマルチモーダル入力の再処理を回避するために使用される、マルチモーダルプロセッサーキャッシュのサイズ (GiB 単位)。
このキャッシュは各 API プロセスとエンジンコアプロセスごとに複製され、合計メモリー使用量は mm_processor_cache_gb * (api_server_count + data_parallel_size) です。
このキャッシュを完全に無効にするには 0 に設定します (非推奨)。
デフォルト: 4
2.1.9.5. --disable-mm-preprocessor-cache リンクのコピーリンクがクリップボードにコピーされました!
デフォルト: False
2.1.9.6. --mm-processor-cache-type リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: lru、shm
マルチモーダルプリプロセッサー/マッパーに使用するキャッシュのタイプ。shm の場合は、共有メモリー FIFO キャッシュを使用します。lru の場合は、ミラーリングされた LRU キャッシュを使用します。
デフォルト: lru
2.1.9.7. --mm-shm-cache-max-object-size-mb リンクのコピーリンクがクリップボードにコピーされました!
マルチモーダルプロセッサー共有メモリーキャッシュに格納される各オブジェクトのサイズ制限 (MiB 単位)。mm_processor_cache_type が "shm" の場合にのみ有効です。
デフォルト 128
2.1.9.8. --mm-encoder-tp-mode リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: data、weights
テンソル並列処理 (TP) を使用してマルチモーダルエンコーダー推論を最適化する方法を示します。
-
"weights": 同じ vLLM エンジン内で、各レイヤーの重みを TP ランクに分割します。(デフォルトの TP 動作) -
"data": 同じ vLLM エンジン内で、バッチ入力データを TP ランク全体に分割し、各 TP ランクで完全な重みをホストしながらデータを並列処理します。このバッチレベルの DP は、API 要求レベルの DP (--data-parallel-sizeで制御) と混同しないでください。これはモデルごとにのみサポートされ、エンコーダーが DP をサポートしていない場合は"weights"にフォールバックします。
デフォルト: weights
2.1.9.9. --interleave-mm-strings, --no-interleave-mm-strings リンクのコピーリンクがクリップボードにコピーされました!
--chat-template-content-format=string を使用しながら、マルチモーダルプロンプトの完全なインターリーブサポートを有効にします。
デフォルト: False
2.1.9.10. --skip-mm-profiling, --no-skip-mm-profiling リンクのコピーリンクがクリップボードにコピーされました!
有効にすると、エンジンの初期化中にマルチモーダルメモリープロファイリングがスキップされ、言語バックボーンモデルを使用したプロファイルのみが実行されます。
これにより、エンジンの起動時間が短縮されますが、マルチモーダルエンコーダーと埋め込みキャッシュのアクティブ化のピーク時のメモリー使用量は、ユーザーが見積もる必要があります。
デフォルト: False
2.1.9.11. --video-pruning-rate リンクのコピーリンクがクリップボードにコピーされました!
効率的なビデオサンプリングによるビデオプルーニングのプルーニングレートを設定します。値は [0;1) の範囲内にあり、各ビデオから削除されるメディアトークンの割合を決定します。
デフォルト: None
2.1.10. LoRAConfig リンクのコピーリンクがクリップボードにコピーされました!
LoRA の設定。
2.1.10.1. --enable-lora, --no-enable-lora リンクのコピーリンクがクリップボードにコピーされました!
True の場合、LoRA アダプターの処理が有効になります。
デフォルト: None
2.1.10.2. --enable-lora-bias, --no-enable-lora-bias リンクのコピーリンクがクリップボードにコピーされました!
この引数は非推奨です。
LoRA アダプターのバイアスを有効にします。このオプションは v0.12.0 で削除されます。
デフォルト: False
2.1.10.3. --max-loras リンクのコピーリンクがクリップボードにコピーされました!
単一バッチ内の LoRA の最大数。
デフォルト: 1
2.1.10.4. --max-lora-rank リンクのコピーリンクがクリップボードにコピーされました!
最大 LoRA ランク。
デフォルト: 16
2.1.10.5. --lora-extra-vocab-size リンクのコピーリンクがクリップボードにコピーされました!
(非推奨) LoRA アダプターに存在できる追加語彙の最大サイズ。v0.12.0 で削除されます。
デフォルト: 256
2.1.10.6. --lora-dtype リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: auto、bfloat16、float16
LoRA のデータ型。auto の場合、デフォルトで基本モデルの dtype になります。
デフォルト: auto
2.1.10.7. --max-cpu-loras リンクのコピーリンクがクリップボードにコピーされました!
CPU メモリーに保存する LoRA の最大数。max_loras 以上である必要があります。
デフォルト: None
2.1.10.8. --fully-sharded-loras, --no-fully-sharded-loras リンクのコピーリンクがクリップボードにコピーされました!
デフォルトでは、LoRA 計算の半分だけがテンソル並列処理で分割されます。これを有効にすると、完全にシャード化されたレイヤーが使用されます。シーケンスの長さ、ランク、またはテンソルの並列サイズが大きい場合、おそらくこれは高速になります。
デフォルト: False
2.1.10.9. --default-mm-loras リンクのコピーリンクがクリップボードにコピーされました!
特定のモダリティーを LoRA モデルパスにマッピングするディクショナリー。このフィールドはマルチモーダルモデルにのみ該当します。このフィールドは、特定のモダリティーが存在し、モデルが常に LoRA がアクティブであると想定する場合に使用してください。現時点では、リクエストが複数の追加モダリティーを提供し、それぞれに独自の LoRA がある場合、プロンプトごとに 1 つの lora アダプターしかサポートしていないため、default_mm_loras は適用されないことに注意してください。オフラインモードで実行すると、n 個のモダリティーの lora ID が、モダリティーの名前とともにアルファベット順に 1 - n に自動的に割り当てられます。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.11. ObservabilityConfig リンクのコピーリンクがクリップボードにコピーされました!
可観測性の設定 - メトリクスとトレース。
2.1.11.2. --otlp-traces-endpoint リンクのコピーリンクがクリップボードにコピーされました!
OpenTelemetry トレースが送信されるターゲット URL。
デフォルト: None
2.1.11.3. --collect-detailed-traces リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: all、model、worker、None、model,worker、model,all、worker,model、worker,all、all,model、all,worker
--otlp-traces-endpoint が設定されている場合にのみこれを設定する意味があります。設定すると、指定されたモジュールの詳細なトレースが収集されます。これには、コストがかかったり、ブロックしたりする可能性のある操作が含まれるため、パフォーマンスに影響が出る可能性があります。
各リクエストの詳細なタイミング情報を収集するとコストがかかる可能性があることに注意してください。
デフォルト: None
2.1.12. SchedulerConfig リンクのコピーリンクがクリップボードにコピーされました!
スケジューラーの設定
2.1.12.1. --max-num-batched-tokens リンクのコピーリンクがクリップボードにコピーされました!
1 回の反復で処理されるトークンの最大数。
この設定には静的なデフォルトはありません。ユーザーが指定しない場合は、使用コンテキストに基づいて EngineArgs.create_engine_config で設定されます。
'1k'、'2M' などの人間が読める整数を解析します。小数値を小数乗数とともに含めます。
Examples: - '1k' -> 1,000 - '1K' -> 1,024 - '25.6k' -> 25,600
Examples:
- '1k' -> 1,000
- '1K' -> 1,024
- '25.6k' -> 25,600
デフォルト: None
2.1.12.2. --max-num-seqs リンクのコピーリンクがクリップボードにコピーされました!
1 回の反復で処理されるシーケンスの最大数。
この設定には静的なデフォルトはありません。ユーザーが指定しない場合は、使用コンテキストに基づいて EngineArgs.create_engine_config で設定されます。
デフォルト: None
2.1.12.3. --max-num-partial-prefills リンクのコピーリンクがクリップボードにコピーされました!
チャンク単位の事前入力の場合、同時に部分的に事前入力できるシーケンスの最大数。
デフォルト: 1
2.1.12.4. --max-long-partial-prefills リンクのコピーリンクがクリップボードにコピーされました!
チャンク単位の事前入力の場合、同時に事前入力される long_prefill_token_threshold よりも長いプロンプトの最大数。これを max_num_partial_prefills よりも小さい値を設定すると、場合によっては短いプロンプトが長いプロンプトの前にキューを飛び越して処理され、レイテンシーが改善されます。
デフォルト: 1
2.1.12.5. --cuda-graph-sizes リンクのコピーリンクがクリップボードにコピーされました!
Cuda グラフのキャプチャーサイズ
- 何も指定されていない場合は、デフォルトで [min (max_num_seqs * 2、512)] に設定されます。
- 1 つの値が提供される場合、キャプチャーリストは、[1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)] のパターンに従います。
- 複数の値 (例: 1 2 128) が指定された場合、キャプチャーリストは指定されたリストに従います。
デフォルト: []
2.1.12.6. --long-prefill-token-threshold リンクのコピーリンクがクリップボードにコピーされました!
チャンクでの事前入力の場合、プロンプトがこのトークン数より長いと、リクエストは長いとみなされます。
デフォルト: 0
2.1.12.7. --num-lookahead-slots リンクのコピーリンクがクリップボードにコピーされました!
既知のトークン ID を超えて、シーケンスごと、ステップごとに割り当てるスロットの数。これは、受け入れられるかどうかわからないトークンの KV アクティベーションを保存するために、推測的デコードで使用されます。
これは今後、推測生成の設定に置き換えられますが、それまでは正確性テストを有効にするために存在します。
デフォルト: 0
2.1.12.8. --scheduling-policy リンクのコピーリンクがクリップボードにコピーされました!
使用可能な選択肢: fcfs、priority
使用するスケジューリングポリシー。
- "fcfs" は先着順を意味します。つまり、リクエストは到着順に処理されます。
- "priority" は、リクエストが指定された優先度 (値が低いほど早く処理される) と到着時刻に基づいて処理されることを意味します (同じ値の場合は到着時刻で決定されます)。
デフォルト: fcfs
2.1.12.9. --enable-chunked-prefill, --no-enable-chunked-prefill リンクのコピーリンクがクリップボードにコピーされました!
True の場合、残りの max_num_batched_tokens に基づいて事前入力リクエストをチャンク単位に分割できます。
デフォルト: None
2.1.12.10. --disable-chunked-mm-input, --no-disable-chunked-mm-input リンクのコピーリンクがクリップボードにコピーされました!
true に設定され、チャンク事前入力が有効になっている場合、マルチモーダルアイテムを部分的にスケジュールする必要はありません。V1 でのみ使用されます。これにより、リクエストに混合プロンプト (たとえば、テキストトークン TTTT の後にイメージトークン IIIIIIIIII が続く) があり、一部のイメージトークンのみをスケジュールできる場合 (たとえば、TTTTIIIII があった場合に、IIIII を残す)、アイテムは 1 つのステップで TTTT としてスケジュールされ、次のステップで IIIIIIIIII としてスケジュールされます。
デフォルト: False
2.1.12.11. --scheduler-cls リンクのコピーリンクがクリップボードにコピーされました!
使用するスケジューラークラス。"vllm.core.scheduler.Scheduler" がデフォルトのスケジューラーです。直接クラスまたは "mod.custom_class" 形式のクラスへのパスを指定できます。
デフォルト: vllm.core.scheduler.Scheduler
2.1.12.12. --disable-hybrid-kv-cache-manager, --no-disable-hybrid-kv-cache-manager リンクのコピーリンクがクリップボードにコピーされました!
True に設定すると、フルアテンションやスライディングウィンドウアテンションなどの複数の種類のアテンションレイヤーがある場合でも、KV キャッシュマネージャーはすべてのアテンションレイヤーに同じサイズの KV キャッシュを割り当てます。
デフォルト: False
2.1.12.13. --async-scheduling, --no-async-scheduling リンクのコピーリンクがクリップボードにコピーされました!
これは実験的な機能です。
True に設定すると、非同期スケジューリングが実行されます。これにより、CPU オーバーヘッドが削減され、レイテンシーとスループットが向上する可能性があります。ただし、非同期スケジューリングは現在、構造化出力、投機的デコード、パイプライン並列処理などの一部の機能ではサポートされていません。
デフォルト: False
2.1.13. VllmConfig リンクのコピーリンクがクリップボードにコピーされました!
すべての vllm 関連の設定が含まれるデータクラス。これにより、コードベース内での個別の設定の受け渡しが簡単になります。
2.1.13.1. --speculative-config リンクのコピーリンクがクリップボードにコピーされました!
推測的デコーディングの設。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.13.2. --kv-transfer-config リンクのコピーリンクがクリップボードにコピーされました!
分散 KV キャッシュ転送の設定。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.13.3. --kv-events-config リンクのコピーリンクがクリップボードにコピーされました!
イベント公開の設定。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト: None
2.1.13.4. --compilation-config, -O リンクのコピーリンクがクリップボードにコピーされました!
モデルの torch.compile および cudagraph キャプチャー設定。
省略形として、-O<n> を使用してコンパイルレベル n を直接指定できます。-O3 は -O.level=3 (-O='{"level":3}' と同じ) と同等です。現在、-O <n>and -O=<n>are supported as well but this will likely be removed in favor of clearer -O<n>syntax in the future.</n></n></n>
level 0 は最適化なしのデフォルトレベルです。レベル 1 と 2 は内部テスト専用です。レベル 3 は実稼働環境での推奨レベルで、V1 でもデフォルトです。
完全なコンパイル設定は、{"level": 3, "cudagraph_capture_sizes": [1, 2, 4, 8]} のように指定できます。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト:
2.1.13.5. --additional-config リンクのコピーリンクがクリップボードにコピーされました!
指定されたプラットフォームの追加設定。プラットフォームによってサポートされる設定が異なる場合があります。使用しているプラットフォームに対して設定が有効であることを確認してください。コンテンツはハッシュ可能である必要があります。
デフォルト: {}
2.1.13.6. --structured-outputs-config リンクのコピーリンクがクリップボードにコピーされました!
構造化された出力設定。
有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
デフォルト:
2.2. vllm chat の引数 リンクのコピーリンクがクリップボードにコピーされました!
実行中の API サーバーでチャット補完を生成します。
vllm chat [options]
$ vllm chat [options]
- --api-key API_KEY
OpenAI API キー。指定されている場合、この API キーは環境変数に設定された API キーをオーバーライドします。
デフォルト: None
- --model-name MODEL_NAME
プロンプト補完で使用されるモデル名。デフォルトでは、リストモデル API 呼び出しの最初のモデルに設定されます。
デフォルト: None
- --system-prompt SYSTEM_PROMPT
チャットテンプレートに追加するシステムプロンプト。システムプロンプトをサポートするモデルに使用されます。
デフォルト: None
- --url URL
実行中の OpenAI 互換 RESTful API サーバーの URL
デフォルト:
http://localhost:8000/v1- -q MESSAGE, --quick MESSAGE
MESSAGEとして単一のプロンプトを送信し、応答を出力してから終了します。デフォルト: None
2.3. vllm complete の引数 リンクのコピーリンクがクリップボードにコピーされました!
実行中の API サーバーを使用して、指定のプロンプトに基づいてテキスト補完を生成します。
vllm complete [options]
$ vllm complete [options]
- --api-key API_KEY
OpenAI サービスの API キー。指定されている場合、この API キーは環境変数に設定された API キーをオーバーライドします。
デフォルト: None
- --model-name MODEL_NAME
プロンプト補完で使用されるモデル名。デフォルトでは、リストモデル API 呼び出しの最初のモデルに設定されます。
デフォルト: None
- --url URL
実行中の OpenAI 互換 RESTful API サーバーの URL
デフォルト:
http://localhost:8000/v1- -q PROMPT, --quick PROMPT
1 つのプロンプトを送信し、完了出力を表示して終了します。
デフォルト: None
2.4. vllm bench 引数 リンクのコピーリンクがクリップボードにコピーされました!
オンラインサービングスループットをベンチマークします。
vllm bench [options]
$ vllm bench [options]
- bench
位置引数:
-
latency- 単一のリクエストバッチのレイテンシーをベンチマークします。 -
serve- オンラインサービングスループットをベンチマークします。 -
throughput- オフライン推論スループットをベンチマークします。
-
2.5. vllm collect-env 引数 リンクのコピーリンクがクリップボードにコピーされました!
環境情報を収集します。
vllm collect-env
$ vllm collect-env
2.6. vllm run-batch 引数 リンクのコピーリンクがクリップボードにコピーされました!
指定されたモデルのバッチ推論ジョブを実行します。
vllm run-batch
$ vllm run-batch
- --disable-log-requests
ログ要求を無効にします。
デフォルト: False
- --disable-log-stats
統計のログ記録を無効にします。
デフォルト: False
- --enable-metrics
Prometheus メトリクスを有効にします。
デフォルト: False
- --enable-prompt-tokens-details
True に設定すると、
prompt_tokens_detailsの使用が有効になります。デフォルト: False
- --max-log-len MAX_LOG_LEN
ログに出力されるプロンプト文字またはプロンプト ID 番号の最大数。
デフォルト: Unlimited
- --output-tmp-dir OUTPUT_TMP_DIR
出力 URL にアップロードする前に出力ファイルを保存するディレクトリー。
デフォルト: None
- --port PORT
Prometheus メトリクスサーバーのポート番号。
enable-metricsが設定されている場合にのみ必要です。デフォルト: 8000
- --response-role RESPONSE_ROLE
request.add_generation_prompt=Trueの場合に返されるロール名。デフォルト: assistant
- --url URL
Prometheus メトリクスサーバーの URL。
enable-metricsが設定されている場合にのみ必要です。デフォルト: 0.0.0.0
- --use-v2-block-manager
非推奨。ブロックマネージャー v1 は削除されました。
SelfAttnBlockSpaceManager(ブロックマネージャー v2) がデフォルトになりました。--use-v2-block-managerフラグを True または False に設定しても、vLLM の動作には影響しません。デフォルト: True
- -i INPUT_FILE, --input-file INPUT_FILE
単一の入力ファイルへのパスまたは URL。ローカルファイルパスと HTTP または HTTPS をサポートします。URL が指定されている場合、ファイルは HTTP GET 経由で利用できる必要があります。
デフォルト: None
- -o OUTPUT_FILE, --output-file OUTPUT_FILE
単一の出力ファイルへのパスまたは URL。ローカルファイルパスと HTTP または HTTPS をサポートします。URL が指定されている場合、ファイルは HTTP PUT を使用して利用できる必要があります。
デフォルト: None
第3章 環境変数 リンクのコピーリンクがクリップボードにコピーされました!
環境変数を使用して、AI Inference Server のシステムレベルのインストール、ビルド、ロギングの動作を設定できます。
VLLM_PORT と VLLM_HOST_IP は、AI Inference Server の 内部使用 向けのホストポートと IP アドレスを設定します。これは、API サーバーのポートおよび IP アドレスではありません。API サーバーを起動する時には --host $VLLM_HOST_IP と --port $VLLM_PORT を使用しないでください。
AI 推論サーバーが使用するすべての環境変数には、先頭に VLLM_ が付きます。Kubernetes を使用している場合は、サービスに vllm という名前を付けないでください。この名前を指定すると、Kubernetes によって設定された環境変数が AI Inference Server 環境変数と競合する可能性があります。これは、Kubernetes が大文字のサービス名を接頭辞として各サービスの環境変数を設定するためです。詳細は、Kubernetes 環境変数 を参照してください。
| Environment variable | 説明 |
|---|---|
|
|
vLLM のターゲットデバイス |
|
| 並列に実行するコンパイルジョブの最大数。デフォルトでは、これは CPU の数です。 |
|
|
nvcc に使用するスレッドの数。デフォルトでは、これは 1 です。設定されている場合、CPU の過剰サブスクライブを避けるために |
|
| 設定されている場合、AI Inference Server はプリコンパイルされたバイナリー (\*.so) を使用します。 |
|
| テスト用に Python ビルドで毎晩作成される wheel を強制的に使用するかどうか。 |
|
| CMake ビルドタイプ。利用可能なオプション: "Debug", "Release", "RelWithDebInfo"。 |
|
| 設定されている場合、AI Inference Server はインストール中に詳細なログを出力します。 |
|
| AI Inference Server 設定ファイルのルートディレクトリー。 |
|
| AI Inference Server キャッシュファイルのルートディレクトリー。 |
|
| 分散環境で現在のノードの IP アドレスを決定するために使用されます。 |
|
| 分散環境で通信ポートを手動で設定するために使用されます。 |
|
| フロントエンド API サーバーがマルチプロセスモードで実行されているときに IPC に使用されるパス。 |
|
| true の場合、Hugging Face Hub ではなく ModelScope からモデルがロードされます。 |
|
| リングバッファーがいっぱいになったときに警告メッセージを記録する間隔 (秒)。 |
|
| cudatoolkit ホームディレクトリーへのパス。このディレクトリーの下に bin、include、lib ディレクトリーがあります。 |
|
| NCCL ライブラリーファイルへのパス。PyTorch のバグのため、NCCL バージョン 2.19 以降で必要です。 |
|
|
|
|
| AI Inference Server で Triton Flash Attention を使用するかどうかを制御するフラグ。 |
|
| AI Inference Server に特定の flash-attention バージョン (2 または 3) を使用するように強制します。これは flash-attention バックエンドでのみ有効です。 |
|
| Dynamo フルグラフキャプチャーを有効にする内部フラグ。 |
|
| 分散設定におけるプロセスのローカルランク。GPU デバイス ID を決定するために使用されます。 |
|
| 分散設定で可視デバイスを制御するために使用されます。 |
|
| エンジン内の反復ごとのタイムアウト。 |
|
| AI Inference Server API サーバーの API キー。 |
|
| tensorizer が S3 からモデルをロードするための S3 アクセスキー ID。 |
|
| tensorizer が S3 からモデルをロードするための S3 シークレットアクセスキー。 |
|
| tensorizer が S3 からモデルをロードするための S3 エンドポイント URL。 |
|
| AI Inference Server 使用統計サーバーの URL。 |
|
| true の場合、使用状況統計の収集が無効になります。 |
|
| true の場合、AI Inference Server 使用状況統計の追跡を無効にします。 |
|
| 使用状況統計収集のソース。 |
|
| 1 に設定すると、AI Inference Server はデフォルトの設定または指定された設定パスを使用してロギングを設定します。 |
|
| ロギング設定ファイルへのパス。 |
|
| vLLM のデフォルトのログレベル。 |
|
| 設定されている場合、AI Inference Server はこの接頭辞をすべてのログメッセージの先頭に追加します。 |
|
| カスタムの logits プロセッサーに使用されるスレッドの数。 |
|
| 1 に設定すると、AI Inference Server はデバッグ用に関数呼び出しをトレースします。 |
|
| 注意計算のバックエンド (例: "TORCH_SDPA", "FLASH_ATTN", "XFORMERS")。 |
|
| 設定されている場合、AI Inference Server は FlashInfer サンプラーを使用します。 |
|
| FlashInfer にテンソルコアの使用を強制します。それ以外の場合はヒューリスティックを使用します。 |
|
| パイプラインステージのパーティションストラテジー。 |
|
| CPU キー値キャッシュスペース (デフォルトは 4GB)。 |
|
| OpenMP スレッドによってバインドされる CPU コア ID。 |
|
| サポートされていない CPU 上の MoE レイヤーにプレパックを使用するかどうか。 |
|
| OpenVINO デバイスの選択 (デフォルトは CPU)。 |
|
| OpenVINO キー値キャッシュスペース (デフォルトは 4GB)。 |
|
| OpenVINO KV キャッシュの精度。 |
|
| HF Optimum を使用してモデルのエクスポート中に重みの圧縮を有効にします。 |
|
| すべてのワーカーでの実行に Ray SPMD ワーカーを有効にします。 |
|
| Ray が提供する Compiled Graph API を使用して、コントロールプレーンのオーバーヘッドを最適化します。 |
|
| Ray が提供するコンパイル済みグラフで NCCL 通信を有効にします。 |
|
| Ray が提供するコンパイル済みグラフで GPU 通信のオーバーラップを有効にします。 |
|
| マルチプロセスワーカーの方法 (例: "fork") を指定します。 |
|
| ダウンロードしたアセットを保存するためのキャッシュへのパス。 |
|
| マルチモーダルモデルを提供するときにイメージを取得するためのタイムアウト (デフォルトは 5 秒)。 |
|
| マルチモーダルモデルを提供するときにビデオを取得するためのタイムアウト (デフォルトは 30 秒)。 |
|
| マルチモーダルモデルを提供するときにオーディオを取得するためのタイムアウト (デフォルトは 10 秒)。 |
|
| マルチモーダルの入力キャッシュのキャッシュサイズ (GiB 単位) (デフォルトは 8GiB)。 |
|
| XLA 永続キャッシュディレクトリーへのパス (XLA デバイスのみ)。 |
|
| 設定されている場合、各実行ステップの後に XLA の再コンパイルをアサートします。 |
|
| 融合された MoE レイヤーのチャンクサイズ (デフォルトは 32768)。 |
|
| true の場合、非推奨の警告をスキップします。 |
|
| true の場合、エンジンエラーが発生した後でも OpenAI API サーバーを稼働状態に保ちます。 |
|
| モデルのデフォルトの長さよりも大きい最大シーケンス長を指定できます。 |
|
| ハードウェアのサポートに関係なく、FP8 量子化に FP8 Marlin を強制的に指定します。 |
|
| 特定のロード形式を強制的に指定します。 |
|
| バックエンドサーバーからレスポンスを取得するタイムアウト。 |
|
| ロードするプラグインの一覧。 |
|
| Torch プロファイラートレースを保存するためのディレクトリー。 |
|
| 設定されている場合、AWQ の Triton 実装が使用されます。 |
|
| 設定されている場合、実行時に Lora アダプターの更新を許可します。 |
|
| ピアツーピア機能チェックをスキップします。 |
|
| パフォーマンス比較のために無効にする量子化カーネルのリスト。 |
|
| 設定されている場合、V1 コードパスが使用されます。 |
|
| ROCm の FP8 重みを 256 バイトにパディングします。 |
|
| FP8 KV キャッシュの動的クエリースケール係数計算の除数。 |
|
| FP8 KV キャッシュの動的キースケール係数計算用の除数。 |
|
| FP8 KV キャッシュの動的値スケール係数計算用の除数。 |
|
| 設定されている場合、V1 コードパスの LLM でマルチプロセッシングが有効になります。 |
|
| バッチサイズを記録する時間間隔。 |
|
|
設定されている場合、AI Inference Server は開発モードで実行され、デバッグ用の追加エンドポイント (例: |
| VLLM_V1_OUTPUT_PROC_CHUNK_SIZE | V1 AsyncLLM インターフェイスでトークンごとの出力を処理するために、単一の asyncio タスクで処理するリクエストの最大数を制御します。これは、同時多発的なストリーミングリクエストに影響します。 |
|
| 設定されている場合、AI Inference Server は MLA アテンション最適化を無効にします。 |
|
|
設定されている場合、AI Inference Server は |
|
| Ray のワーカーあたりの GPU の数。Ray が単一の GPU 上で複数のアクターをスケジュールできるように、小数に指定できます。 |
|
| 各ワーカーの Ray バンドルに使用されるインデックスを指定します。形式: 整数のコンマ区切りリスト (例: "0,1,2,3")。 |
|
|
|
|
| Gaudi3 でコストのかかる収集操作を回避するために、連続したキャッシュのフェッチを有効にします。HPU 連続キャッシュのみが対象です。 |
|
| データ並列設定におけるプロセスのランク。 |
|
| データ並列設定のワールドサイズ。 |
|
| データ並列設定におけるマスターノードの IP アドレス。 |
|
| データ並列設定におけるマスターノードのポート。 |
|
| RunAI Streamer を使用して CI でモデルをロードするために S3 パスを使用するかどうか。 |
|
| gptq/awq marlin カーネルで atomicAdd reduce を使用するかどうか。 |
|
| V0 のアウトラインキャッシュをオンにするかどうか。このキャッシュは上限がなく、ディスク上にあるため、悪意のあるユーザーが含まれる環境では安全ではありません。 |
|
| 設定されている場合、top-k および top-p サンプリングに対する TPU 固有の最適化が無効になります。 |
第4章 AI Inference Server のメトリクスの表示 リンクのコピーリンクがクリップボードにコピーされました!
vLLM は、AI Inference Server OpenAI 互換 API サーバーの /metrics エンドポイントを介してさまざまなメトリクスを公開します。
Python または Docker を使用してサーバーを起動できます。
手順
AI Inference Server サーバーを起動し、次の例に示すようにモデルを読み込みます。このコマンドは、OpenAI 互換 API も公開します。
vllm serve unsloth/Llama-3.2-1B-Instruct
$ vllm serve unsloth/Llama-3.2-1B-InstructCopy to Clipboard Copied! Toggle word wrap Toggle overflow OpenAI 互換 API の
/metricsエンドポイントをクエリーして、サーバーから最新のメトリクスを取得します。curl http://0.0.0.0:8000/metrics
$ curl http://0.0.0.0:8000/metricsCopy to Clipboard Copied! Toggle word wrap Toggle overflow 出力例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
第5章 AI Inference Server メトリクス リンクのコピーリンクがクリップボードにコピーされました!
AI Inference Server は、システム健全性の監視に使用できる vLLM メトリクスを公開します。
| メトリクス名 | 説明 |
|---|---|
|
| 現在 GPU 上で実行中のリクエストの数。 |
|
| 処理を待機しているリクエストの数。 |
|
| LoRA リクエストに関する統計を実行しています。 |
|
| CPU にスワップされたリクエストの数。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
|
| GPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。 |
|
| CPU KV キャッシュの使用量。値が 1 の場合、使用率は 100% になります。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
|
| CPU 接頭辞キャッシュブロックのヒット率。非推奨: KV キャッシュオフロードは V1 では使用されません。 |
|
|
GPU 接頭辞キャッシュブロックのヒット率。非推奨: V1 では |
|
| エンジンからのプリエンプションの累計数。 |
|
| 処理された事前入力トークンの合計数。 |
|
| 処理された生成トークンの合計数。 |
|
| エンジンステップごとのトークン数のヒストグラム。 |
|
| 最初のトークンまでの時間 (秒) のヒストグラム。 |
|
| 出力トークンあたりの時間 (秒) のヒストグラム。 |
|
| エンドツーエンドのリクエスト遅延のヒストグラム (秒単位)。 |
|
| リクエストが WAITING フェーズにある時間を示すヒストグラム。 |
|
| リクエストが RUNNING フェーズにある時間を示すヒストグラム。 |
|
| リクエストが PREFILL フェーズにある時間を示すヒストグラム。 |
|
| リクエストが DECODE フェーズにある時間を示すヒストグラム。 |
|
|
リクエストがキュー内にいた時間 (秒単位) を示すヒストグラム。非推奨: 代わりに |
|
| モデルの順伝播工程に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。 |
|
| モデル実行関数に費やされた時間 (ミリ秒単位) を示すヒストグラム。非推奨: 代わりに、事前入力/デコード/推論時間のメトリクスを使用してください。 |
|
| 処理された事前入力トークンの数のヒストグラム。 |
|
| 処理された世代トークンの数のヒストグラム。 |
|
| 要求された生成トークンの最大数のヒストグラム。 |
|
|
|
|
|
|
|
| 正常に処理されたリクエストの数。 |
|
| 推測的なトークンの受け入れ率。 |
|
| 推測的デコーディングのシステム効率。 |
|
| 受け入れられたトークンの合計数。 |
|
| ドラフトトークンの合計数。 |
|
| 発行されたトークンの合計数。 |
第6章 非推奨のメトリクス リンクのコピーリンクがクリップボードにコピーされました!
次のメトリクスは非推奨になり、AI Inference Server の今後のバージョンでは削除される予定です。
-
vllm:num_requests_swapped -
vllm:cpu_cache_usage_perc -
vllm:cpu_prefix_cache_hit_rate(KV キャッシュオフロードは V1 では使用されません)。 -
vllm:gpu_prefix_cache_hit_rate。このメトリクスは、V1 では queries+hits カウンターに置き換えられます。 -
vllm:time_in_queue_requests。このメトリクスはvllm:request_queue_time_secondsによって複製されます。 -
vllm:model_forward_time_milliseconds -
vllm:model_execute_time_milliseconds。代わりに、事前入力、デコード、または推論時間のメトリクスを使用する必要があります。
バージョン X.Y でメトリクスが非推奨になると、バージョン X.Y+1 では非表示になりますが、--show-hidden-metrics-for-version=X.Y エスケープハッチを使用して再度有効化できます。非推奨のメトリクスは、次のバージョン X.Y+2 で完全に削除されます。