第2章 vLLM サーバー引数の全リスト

以下は、vllm serve コマンドで使用できる vLLM サーバー引数の包括的なリストです。各サーバー引数およびデフォルト値を説明します。

2.1. vLLM のサーバー引数
リンクのコピー

--model

使用する Hugging Face モデルの名前またはパス。

デフォルト値: facebook/opt-125m

--task

モデルを使用するタスク。同じモデルを複数のタスクに使用できる場合でも、各 AI Inference Server インスタンスがサポートするのは 1 つのタスクのみです。モデルが 1 つのタスクのみをサポートする場合は、auto を使用してそのタスクを選択できます。それ以外の場合は、使用するタスクを明示的に指定する必要があります。

デフォルト値: auto

オプション: auto, generate, embedding, embed, classify, score, reward, transcription

--tokenizer

使用する Hugging Face トークナイザーの名前またはパス。指定しない場合は、モデル名またはパスが使用されます。

--hf-config-path

使用する Hugging Face 設定の名前またはパス。指定しない場合は、モデル名またはパスが使用されます。

--skip-tokenizer-init

tokenizer および detokenizer の初期化をスキップします。入力には、有効な prompt_token_ids が含まれており、prompt は None である必要があります。生成された出力には、トークン ID が含まれます。

--revision

使用する特定のモデルバージョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。

--code-revision

Hugging Face Hub のモデルコードに使用する特定のリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。

--tokenizer-revision

使用する Hugging Face トークナイザーのリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。

--tokenizer-mode

トークンサイザーモード。

auto は、利用可能な場合は高速トークナイザーを使用します。
slow は、速度の遅いトークナイザーを使用します。
mistral は常に mistral_common トークンライザーを使用します。
custom は --tokenizer を使用して、事前登録されたトークナイザーを選択します。

デフォルト値: auto

オプション: auto、slow、mistral、custom

--trust-remote-code

Hugging Face からのリモートコードを信頼します。

--allowed-local-media-path

API リクエストがサーバーファイルシステムで指定されたディレクトリーからローカルイメージまたはビデオを読み取ることを許可します。これはセキュリティー上のリスクです。信頼できる環境でのみ有効にする必要があります。

--download-dir

重みをダウンロードしてロードするディレクトリー。デフォルトは Hugging Face のデフォルトのキャッシュディレクトリーです。

--load-format

ロードするモデルの重みの形式。

デフォルト値: auto

オプション: auto, pt, safetensors, npcache, dummy, tensorizer, sharded_state, gguf, bitsandbytes, mistral, runai_streamer

auto は、safetensors 形式で重みを読み込もうとし、safetensors 形式が利用できない場合は pytorch bin 形式にフォールバックします。
pt は、重みを pytorch bin 形式で読み込みます。
safetensors は、重みを安全な形式で読み込みます。
npcache は、重みを pytorch 形式でロードし、numpy キャッシュを保存して読み込みを高速化します。
dummy は、重みをランダムな値で初期化します。これは、主にプロファイリングを目的とします。
tensorizer は、CoreWeave の tensorizer を使用して重みを読み込みます。詳細は、例のセクションにある Tensorize AI Inference Server Model スクリプトを参照してください。
runai_streamer は、Run:aiModel Streamer を使用して Safetensors の重みをロードします。
bitsandbytes は、bitsandbytes の量子化を使用して重みを読み込みます。

--config-format

ロードするモデル設定の形式。

オプション: auto、hf、mistral

auto は、hf 形式が利用できる場合はその形式で設定をロードしようとし、使用できない場合は mistral 形式でロードしようとします。

デフォルト値: ConfigFormat.AUTO

--dtype

モデルの重みとアクティベーションのデータ型。

デフォルト値: auto

オプション: auto, half, float16, bfloat16, float, float32

auto は、FP32 および FP16 モデルの場合は FP16 精度を使用し、BF16 モデルの場合は BF16 精度を使用します。
half は、半精度の FP16 を使用します。AWQ 量子化に推奨されます。
float16 は half と同じです。
精度と範囲のバランスをとるには bfloat16 を使用します。
float は、FP32 の精度の省略形です。
FP32 精度の場合は float32 を使用します。

--kv-cache-dtype

kv キャッシュストレージのデータタイプ。auto の場合は、モデルデータ型を使用します。CUDA 11.8 以降は fp8 (=fp8_e4m3) と fp8_e5m2 をサポートします。ROCm (AMD GPU) は fp8 (=fp8_e4m3) をサポートします。

オプション: auto、fp8、fp8_e5m2、fp8_e4m3

デフォルト値: auto

--max-model-len

モデルコンテキストの長さ。指定されていない場合は、値はモデル設定をもとに自動的に入力されます。

--guided-decoding-backend

ガイド付きデコード (JSON スキーマ、正規表現など) にデフォルトで使用するエンジン。現在 outlines-dev/outlines、mlc-ai/xgrammar、noamgat/lm-format-enforcer をサポートしています。guided_decoding_backend パラメーターを使用してリクエストごとに上書きできます。バックエンド固有のオプションは、バックエンド名の後にコロンを付けて、コンマ区切りのリストで指定できます。有効なバックエンドと利用可能なすべてのオプションは次のとおりです。

xgrammar:no-fallback,
xgrammar:disable-any-whitespace,
outlines:no-fallback,
lm-format-enforcer:no-fallback

デフォルト値: xgrammar

--logits-processor-pattern

有効な logits プロセッサー修飾名を指定するオプションの正規表現パターンで、logits_processors 追加補完引数で渡すことができます。デフォルトは None で、プロセッサーは使用できません。

--model-impl

使用するモデルの実装。

デフォルト値: auto

オプション: auto、vllm、transformers

auto は、AI Inference Server の実装が存在する場合はそれを使用しようとし、AI Inference Server の実装が利用できない場合はトランスフォーマーの実装にフォールバックします。
vllm は、AI Inference Server モデル実装を使用します。
transformers は Transformers モデル実装を使用します。

--distributed-executor-backend

分散モデルワーカーに使用するバックエンド。ray または mp (マルチプロセッシング))。pipeline_parallel_size と tensor_parallel_size の積が使用可能な GPU の数以下の場合、mp を使用して単一のホストで処理を継続します。それ以外の場合、Ray がインストールされている場合はデフォルトで ray になり、そうでない場合は失敗します。TPU は分散推論に対して Ray のみをサポートすることに注意してください。

オプション: ray、mp、uni、external_launcher

--pipeline-parallel-size, -pp

モデルレイヤーを連続したパイプラインステージに分割してモデルを分割するノードの数。

デフォルト値: 1

--tensor-parallel-size, -tp

モデルを複数の GPU に分割して、ストレージと計算負荷を共有します。

デフォルト値: 1

--enable-expert-parallel

MoE レイヤーにはテンソル並列処理ではなくエキスパート並列処理を使用します。

--max-parallel-loading-workers

テンソル並列および大規模モデルの使用時に RAM OOM を回避するために、モデルを複数のバッチで順番にロードします。

--ray-workers-use-nsight

指定されている場合、nsight を使用して Ray ワーカーのプロファイルを作成します。

--block-size

連続するトークンのチャンクのトークンブロックサイズ。これは neuron デバイスで無視され、--max-model-len に設定されます。CUDA デバイスでは、最大 32 のブロックサイズのみがサポートされます。HPU デバイスでは、ブロックサイズのデフォルトは 128 です。

オプション: 8、16、32、64、128

--enable-prefix-caching, --no-enable-prefix-caching

自動接頭辞キャッシュを有効にします。明示的に無効にするには --no-enable-prefix-caching を使用します。

--disable-sliding-window

スライディングウィンドウを無効にし、スライディングウィンドウのサイズを制限します。

--use-v2-block-manager

非推奨: ブロックマネージャー v1 は削除され、SelfAttnBlockSpaceManager (ブロックマネージャー v2) がデフォルトになりました。このフラグを True または False に設定しても、AI Inference Server の動作には影響しません。

--num-lookahead-slots

speculative decoding (推測的デコーディング) に必要な実験的なスケジューリング設定。これは今後、推測的な設定に置き換えられますが、それまでは正確性テストを有効にするために存在します。

デフォルト値: 0

--seed

操作のランダムシード。

--swap-space

GPU あたりの CPU スワップ領域のサイズ (GiB)。

デフォルト値: 4

--cpu-offload-gb

GPU ごとに CPU にオフロードするスペース (GiB 単位)。デフォルトは 0 で、オフロードがないことを意味します。直感的に言えば、この議論は GPU メモリーサイズを増やすための仮想的な方法と見ることができます。たとえば、24 GB の GPU が 1 つあり、これを 10 に設定すると、実質的には 34 GB の GPU と考えることができます。次に、重みが BF16 の 13B モデルをロードできますが、これには少なくとも 26GB の GPU メモリーが必要です。モデルの各フォワードパスでモデルの一部が CPU メモリーから GPU メモリーに動的にロードされるため、高速な CPU-GPU 相互接続が必要になることに注意してください。

デフォルト値: 0

--gpu-memory-utilization

モデルエグゼキューターに使用される GPU メモリーの割合。範囲は 0 - 1 です。たとえば、値が 0.5 の場合、GPU メモリーの使用率は 50% になります。指定しない場合は、デフォルト値 0.9 が使用されます。これはインスタンスごとの制限であり、現在の AI Inference Server インスタンスにのみ適用されます。同じ GPU 上で別の AI Inference Server インスタンスが実行されていても問題ありません。たとえば、同じ GPU 上で 2 つの AI Inference Server インスタンスが実行されている場合、各インスタンスの GPU メモリー使用率を 0.5 に設定できます。

デフォルト値: 0.9

--num-gpu-blocks-override

指定した場合、GPU プロファイリングの結果を無視し、この数の GPU ブロックを使用します。プリエンプションのテストに使用されます。

--max-num-batched-tokens

反復ごとのバッチトークンの最大数。vLLM では、バッチは、各スケジューラーステップでモデルに共同で入力されるアクティブシーケンスのすべてのトークンのセットです。これは、「反復あたりのシーケンス」ではなく、「反復あたりのトークン」として測定されます。

--max-num-partial-prefills

チャンクでの事前入力の場合、同時に実行される部分事前入力の最大数。デフォルトは 1 です。

デフォルト値: 1

--max-long-partial-prefills

チャンクでの事前入力の場合は、自動入力されている --long-prefill-token-threshold よりも長いプロンプトの最大数。これを max_num_partial_prefills よりも小さい値を設定すると、場合によっては短いプロンプトが長いプロンプトの前にキューを飛び越して処理され、レイテンシーが改善されます。デフォルトは 1 です。

デフォルト値: 1

--long-prefill-token-threshold

チャンクでの事前入力の場合、プロンプトがこのトークン数より長いと、リクエストは長いとみなされます。デフォルトではモデルのコンテキストの長さの 4% になります。

デフォルト値: 0

--max-num-seqs

反復ごとのシーケンスの最大数。

--max-logprobs

logprobs を返すための logprobs の最大数は SamplingParams で指定されます。

デフォルト値: 20

--disable-log-stats

統計のログ記録を無効にします。

--quantization, -q

重みを量子化するために使用される方法。None の場合は、まずモデル設定ファイルの quantization_config 属性を確認します。None の場合、モデルの重みは量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。

オプション: aqlm, awq, deepspeedfp, tpu_int8, fp8, ptpc_fp8, fbgemm_fp8, modelopt, nvfp4, marlin, gguf, gptq_marlin_24, gptq_marlin, awq_marlin, gptq, compressed-tensors, bitsandbytes, qqq, hqq, experts_int8, neuron_quant, ipex, quark, moe_wna16, None

--rope-scaling

JSON 形式の RoPE スケーリング設定。例: {rope_type:`dynamic`,factor:2.0}

--rope-theta

RoPE シータ。rope_scaling で使用します。場合によっては、RoPE シータを変更すると、スケールモデルのパフォーマンスが向上します。

--hf-overrides

HuggingFace 設定の追加引数。これはディクショナリーに解析される JSON 文字列である必要があります。

--enforce.-eager

常に eager-mode PyTorch を使用します。False の場合、パフォーマンスと柔軟性を最大限に高めるために、Eager モードと CUDA グラフをハイブリッドで使用します。

--max-seq-len-to-capture

CUDA グラフでカバーされるシーケンスの最大長。シーケンスのコンテキスト長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。さらに、エンコーダー/デコーダーモデルの場合、エンコーダー入力のシーケンス長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。

デフォルト値: 8192

--disable-custom-all-reduce

ParallelConfig を参照してください。

--tokenizer-pool-size

非同期トークン化に使用するトークナイザープールのサイズ。0 の場合、同期トークン化を使用します。

デフォルト値: 0

--tokenizer-pool-type

非同期トークン化に使用するトークナイザープールのタイプ。tokenizer_pool_size が 0 の場合は無視されます。

デフォルト値: ray

--tokenizer-pool-extra-config

トークナイザープールの追加設定。これはディクショナリーに解析される JSON 文字列である必要があります。tokenizer_pool_size が 0 の場合は無視されます。

--limit-mm-per-prompt

マルチモーダルプラグインごとに、各プロンプトで許可する入力インスタンスの数を制限します。項目はコンマで区切られたリストで指定します。たとえば、image=16,video=2 の場合、プロンプトごとに最大 16 枚のイメージと 2 本のビデオが許可されます。モーダルごとのデフォルトは 1 です。

--mm-processor-kwargs

マルチモーダル入力マッピングおよび処理 (イメージプロセッサーなど) をオーバーライドします。例: {num_crops: 4}

--disable-mm-preprocessor-cache

true の場合、マルチモーダルプリプロセッサーとマッパーのキャッシュが無効になります。(非推奨)

--enable-lora

True の場合、LoRA アダプターの処理が有効になります。

--enable-lora-bias

True の場合、LoRA アダプターのバイアスを有効にします。

--max-loras

単一バッチ内の LoRA の最大数。

デフォルト値: 1

--max-lora-rank

最大 LoRA ランク。

デフォルト値: 16

--lora-extra-vocab-size

LoRA アダプターに存在できる追加語彙の最大サイズ (基本のモデル語彙に追加)。

デフォルト値: 256

--lora-dtype

LoRA のデータ型。auto の場合、デフォルトで基本モデルの dtype になります。

デフォルト値: auto

オプション: auto、float16、bfloat16

--long-lora-scaling-factors

複数のスケーリング係数 (基本モデルのスケーリング係数とは異なる場合があります。例:Long LoRA を参照) を指定して、それらのスケーリング係数でトレーニングされた複数の LoRA アダプターを同時に使用できるようにします。指定しない場合は、基本モデルのスケーリング係数でトレーニングされたアダプターのみが許可されます。

--max-cpu-loras

CPU メモリーに保存する LoRA の最大数。max_loras より大きくなければなりません。デフォルトは max_loras です。

--fully-sharded-loras

デフォルトでは、LoRA 計算の半分のみがピュレーターの並列処理の半分になります。これを有効にすると、完全にシャード化されたレイヤーが使用されます。シーケンスの長さ、ランク、またはテンソルの並列サイズが大きい場合、おそらくこれは高速になります。

--enable-prompt-adapter

True の場合は、PromptAdapters の処理を有効にします。

--max-prompt-adapters

バッチの PromptAdapters の最大数。

デフォルト値: 1

--max-prompt-adapter-token

PromptAdapters トークンの最大数

デフォルト値: 0

--device

AI Inference Server 実行用のデバイスタイプ。

オプション: auto, cuda, neuron, cpu, openvino, tpu, xpu, hpu

デフォルト値: auto

--num-scheduler-steps

スケジューラー呼び出しごとの最大のフォワードステップ数。

デフォルト値: 1

--use-tqdm-on-load, --no-use-tqdm-on-load

モデルの重みを読み込むときに進捗バーを有効にするか無効にするかを指定します。

デフォルト値: True

--multi-step-stream-outputs

False の場合、マルチステップはすべてのステップの最後に出力をストリーミングします。

デフォルト値: True

--scheduler-delay-factor

次のプロンプトをスケジュールする前に、遅延 (遅延係数×前回のプロンプトの遅延) を適用します。

デフォルト値: 0.0

--enable-chunked-prefill

設定されている場合、事前入力リクエストは max_num_batched_tokens に基づいてチャンク化できます。

--speculative-model

推測的デコーディングで使用されるドラフトモデルの名前。

--speculative-model-quantization

推測的モデルの重みを量子化するために使用される方法。None の場合、AI Inference Server は最初にモデル設定ファイルの quantization_config 属性をチェックします。None の場合、AI Inference Server はモデルの重みが量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。

--num-speculative-tokens

推測的デコーディングでドラフトモデルからサンプリングする推測的トークンの数。

--speculative-disable-mqa-scorer

True に設定すると、MQA スコアラーは推測的に無効になり、バッチ拡張にフォールバックします。

--speculative-draft-tensor-parallel-size, -spec-draft-tp

推測的デコーディングにおけるドラフトモデルのテンソル並列レプリカの数。

--speculative-max-model-len

ドラフトモデルでサポートされる最大シーケンス長。この長さを超えるシーケンスは推測をスキップします。

--speculative-disable-by-batch-size

エンキュー要求の数がこの値より大きい場合、新しい受信要求に対する推測的デコードを無効にします。

--ngram-prompt-lookup-max

推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最大サイズ。

--ngram-prompt-lookup-min

推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最小サイズ。

--spec-decoding-acceptance-method

推測的デコーディングで、ドラフトトークン検証時に使用する受け入れ方法を指定します。2 種類の承認ルーチンがサポートされています。

RejectionSampler: ドラフトトークンの承認率を変更できません。
TypicalAcceptanceSampler: 設定可能。品質を犠牲にして受け入れ率を高くしたり、その逆を行ったりできます。
デフォルト値: rejection_sampler
オプション: rejection_sampler、normal_acceptance_sampler

--typical-acceptance-sampler-posterior-threshold

トークンが受け入れられる事後確率の下限しきい値を設定します。このしきい値は、TypicalAcceptanceSampler によって、推測的デコーディング中にサンプリングの決定を行うために使用されます。デフォルトは 0.09 です。

--typical-acceptance-sampler-posterior-alpha

TypicalAcceptanceSampler におけるトークン受け入れのエントロピーベースのしきい値のスケーリング係数。通常、--typical-acceptance-sampler-posterior-threshold の平方根 (例: 0.3) がデフォルトになります。

--disable-logprobs-during-spec-decoding

True に設定すると、推測的デコーディング中にトークンログ確率は返されません。False に設定すると、SamplingParams の設定に従って、ログ確率が返されます。指定しない場合はデフォルトで True になります。推測的デコーディング中にログ確率を無効にすると、提案サンプリング、ターゲットサンプリング、および受け入れられたトークンが決定された後の logprob 計算がスキップされるため、レイテンシーが短縮されます。

--model-loader-extra-config

モデルローダーの追加設定。これは、選択されたものに対応するモデルローダーに渡されます。load_format.これはディクショナリーに解析される JSON 文字列である必要があります。

--ignore.-patterns

モデルをロードするときに無視するパターン。llama のチェックポイントの繰り返し読み込みを避けるために、デフォルトは original/**/* になります。

デフォルト値: []

--preemption-mode

recompute の場合、エンジンは再計算によってプリエンプションを実行します。swap の場合、エンジンはブロックスワップによってプリエンプションを実行します。

--served-model-name

API で使用されるモデル名。複数の名前が指定された場合、サーバーは指定された名前のいずれかに応答します。応答のモデルフィールドのモデル名は、このリストの最初の名前です。指定しない場合、モデル名は --models 引数と同じになります。名前は、Prometheus メトリックの model_name タグコンテンツでも使用されることに注意してください。複数の名前が指定された場合、メトリクスタグは最初の名前を取得します。

--qlora-adapter-name-or-path

QLoRA アダプターの名前またはパス。

--show-hidden-metrics-for-version

指定されたバージョン以降で非表示になっている非推奨の Prometheus メトリクスを有効にします。たとえば、以前非推奨になったメトリクスが v0.7.0 リリース以降非表示になっている場合は、新しいメトリクスに移行する間の一時的なエスケープハッチとして --show-hidden-metrics-for-version=0.7 を使用します。このメトリクスは、今後のリリースで完全に削除される可能性があります。

--otlp-traces-endpoint

OpenTelemetry トレースが送信されるターゲット URL。

--collects-detailed-traces

有効な選択肢は、model、workers、all です。--otlp-traces-endpoint が設定されている場合にのみこれを設定する意味があります。設定されている場合、サーバーは指定されたモジュールの詳細なトレースを収集します。これには、コストがかかったり、ブロックしたりする可能性のある操作が含まれるため、パフォーマンスに影響が出る可能性があります。

--disable-async-output-proc

非同期の出力処理を無効にします。これにより、パフォーマンスが低下する可能性があります。

--scheduling-policy

使用するスケジューリングポリシー。fcfs (先着順、リクエストは到着順に処理されます。デフォルト) または priority (リクエストは指定された優先度に基づいて処理され、値が低いほど早く処理されます。同点の場合は到着時間によって決定されます)。

デフォルト値: fcfs

オプション: fcfs, priority

--scheduler-cls

使用するスケジューラークラス。vllm.core.scheduler.Scheduler はデフォルトのスケジューラーです。直接クラスまたは mod.custom_class 形式のクラスへのパスを指定できます。

デフォルト値: vllm.core.scheduler.Scheduler

--override-neuron-config

ニューロンデバイス設定を上書きまたは設定します (例: {cast_logits_dtype: bloat16})。

--override-pooler-config

プーリングモデルのプーリングメソッドをオーバーライドまたは設定します (例: {pooling_type: mean, normalize: false})。

--compilation-config, -O

モデル用の torch.compile 設定。数字 (0、1、2、3) の場合は最適化レベルとして解釈されます。注意: レベル 0 は最適化なしのデフォルトレベルです。レベル 1 と 2 は内部テスト専用です。レベル 3 は実稼働環境での推奨レベルです。完全なコンパイル設定を指定するには、JSON 文字列を使用します。従来のコンパイラーの慣例に従い、スペースなしの -O の使用もサポートされています。-O3 は -O 3 と同等です。

--kv-transfer-config

分散 KV キャッシュ転送の設定。JSON 文字列である必要があります。

--worker-cls

分散実行に使用するワーカークラス。

デフォルト値: auto

--worker-extension-cls

ワーカー CLS の上にあるワーカー拡張クラスは、既存の機能を変更せずにワーカークラスに新しい機能を追加する場合に便利です。

--generation-config

生成設定へのフォルダーパス。デフォルトは auto で、生成設定はモデルパスから読み込まれます。設定する場合。vllm、生成設定は読み込まれず、AI Inference Server のデフォルトが使用されます。フォルダーパスに設定すると、指定されたフォルダーパスから生成設定が読み込まれます。生成設定で max_new_tokens が指定されている場合は、すべてのリクエストの出力トークンの数にサーバー全体の制限が設定されます。

デフォルト値: auto

--override-generation-config

生成設定を JSON 形式でオーバーライドまたは設定します (例: {temperature: 0.5})。--generation-config=auto と一緒に使用すると、オーバーライドパラメーターはモデルのデフォルト設定とマージされます。generation-config が None の場合、オーバーライドパラメーターのみが使用されます。

--enable-sleep-mode

エンジンのスリープモードを有効にします。CUDA プラットフォームでのみサポートされます。

--calculate-kv-scales

これにより kv-cache-dtype が fp8 の場合に k_scale と v_scale の動的な計算が可能になります。calculate-kv-scales が false の場合、スケールはモデルチェックポイントからロードされます (利用可能な場合)。それ以外の場合、デフォルトは 1.0 です。

--additional-config

指定されたプラットフォームの追加設定 (JSON 形式)。プラットフォームによってサポートされる設定が異なる場合があります。使用しているプラットフォームに対して設定が有効であることを確認してください。入力形式は {<config_key>: <config_value>} のようになります。

--enable-reasoning

モデルの reasoning_content を有効にするかどうか。有効にすると、モデルは推論コンテンツを生成できるようになります。

.--reasoning-parser

使用しているモデルに応じて推論パーサーを選択します。これは推論コンテンツを OpenAI API 形式に解析するために使用されます。--enable-reasoning に必須です。

オプション: deepseek_r1

--chat-template

ロール、メッセージ、その他のチャット固有のトークンが入力でどのようにエンコードされるかを指定する Jinja2 テンプレートを渡します。詳細は、チャットテンプレートを参照してください。

--tool-call-parser

オプション: deepseek_v3、granite-20b-fc、granite、hermes、internlm、jamba、llama4_json、llama3_json、mistral、phi4_mini_json、pythonic、または --tool-parser-plugin に登録された名前。

--cuda-graph-sizes

CUDA グラフのキャプチャーサイズ。デフォルトは 512 です。値が 1 つ指定されている場合、キャプチャーリストは、[1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)] のパターンに従います。複数の値 (例: 1 2 128) が指定されている場合、キャプチャーリストは指定のリストに従います。

デフォルト: 512

--data-parallel-address, -dpa

データ並列クラスターのヘッドノードのアドレス。

--data-parallel-rpc-port, -dpp

データ並列 RPC 通信用のポート。

--data-parallel-size, -dp

データ並列グループの数。MoE レイヤーは、テンソル並列サイズとデータ並列サイズの積に応じて分割されます。

デフォルト: 1

--data-parallel-size-local, -dpl

このノードで実行されるデータ並列レプリカの数。

--disable-cascade-attn, --no-disable-cascade-attn

V1 のカスケードアテンションを無効にします。カスケードアテンションは数学的な正確性を確保します。ただし、これを無効にすると、数値的な問題が発生する可能性を回避するのに役立ちます。これを False に設定しても、カスケードアテンションはヒューリスティックによって有益であると判断された場合にのみ使用されることに注意してください。

デフォルト: False

--disable-chunked-mm-input, --no-disable-chunked-mm-input

true に設定され、チャンクの事前入力が有効になっている場合は、マルチモーダルアイテムを部分的にスケジュールしないでください。V1 でのみ使用されます。これにより、リクエストに混合プロンプト (たとえば、テキストトークン TTTT の後にイメージトークン IIIIIIIIII が続く) があり、一部のイメージトークンのみをスケジュールできる場合 (たとえば、TTTTIIIII があった場合に、IIIII を残す)、アイテムは 1 つのステップで TTTT としてスケジュールされ、次のステップで IIIIIIIIII としてスケジュールされます。

デフォルト: False

--enable-prompt-embeds, --no-enable-prompt-embeds

True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。

デフォルト: False

--enable-prompt-embeds, --no-enable-prompt-embeds

デフォルト: False

--guided-decoding-disable-additional-properties, --no-guided-decoding-disable-additional-properties

True の場合、ガイダンスバックエンドは JSON スキーマ内の additionalProperties を使用しません。これはガイダンスバックエンドに対してのみサポートされており、アウトラインおよび xgrammar との動作をより適切に調整するために使用されます。

デフォルト: False

--guided-decoding-disable-any-whitespace, ::--no-guided-decoding-disable-any-whitespace

True の場合、このモデルはガイド付きデコーディング中に、空白生成しません。これは、xgrammar および guidance バックエンドでのみサポートされます。

デフォルト: False

--guided-decoding-disable-fallback, --no-guided-decoding-disable-fallback

True の場合、vLLM はエラー時に別のバックエンドにフォールバックしません。

デフォルト: False

--hf-token

リモートファイルの HTTP ベアラー認可として使用するトークン。True の場合、huggingface-cli ログインの実行時に生成され、~/.huggingface に保存されているトークンを使用します。

--kv-events-config

イベント公開の設定。有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。

--prefix-caching-hash-algo

接頭辞キャッシュのハッシュアルゴリズムを設定します。

オプション: builtin、sha256

builtin は、Python の組み込みハッシュです。
sha256 は競合耐性がありますが、一定のオーバーヘッドがあります。

デフォルト: builtin

--pt-load-map-location

pytorch チェックポイントをロードするためのマップの場所。チェックポイントのロードをサポートするには、cuda などの特定のデバイスでのみロードできます。これは {": "cuda"} と同等です。サポートされている別の形式は、GPU 1 から GPU 0 など、異なるデバイスからのマッピングです ({"cuda:1": "cuda:0"})。コマンドラインから渡す場合、辞書内の文字列は JSON 解析のために二重引用符で囲む必要があることに注意してください。詳細は、https://pytorch.org/docs/stable/generated/torch.load.html の map_location のオリジナルドキュメントを参照してください。

デフォルト: cpu

--speculative-config

推測的デコーディングの設定。JSON 文字列である必要があります。

--ssl-keyfile

PEM 形式の TLS 秘密鍵の場所。

第2章 vLLM サーバー引数の全リスト

2.1. vLLM のサーバー引数
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第2章 vLLM サーバー引数の全リスト

2.1. vLLM のサーバー引数リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.1. vLLM のサーバー引数
リンクのコピー