第2章 vLLM サーバー引数の全リスト
以下は、vllm serve コマンドで使用できる vLLM サーバー引数の包括的なリストです。各サーバー引数およびデフォルト値を説明します。
2.1. vLLM のサーバー引数 リンクのコピーリンクがクリップボードにコピーされました!
- --model
使用する Hugging Face モデルの名前またはパス。
デフォルト値:
facebook/opt-125m- --task
モデルを使用するタスク。同じモデルを複数のタスクに使用できる場合でも、各 AI Inference Server インスタンスがサポートするのは 1 つのタスクのみです。モデルが 1 つのタスクのみをサポートする場合は、
autoを使用してそのタスクを選択できます。それ以外の場合は、使用するタスクを明示的に指定する必要があります。デフォルト値:
autoオプション:
auto,generate,embedding,embed,classify,score,reward,transcription- --tokenizer
- 使用する Hugging Face トークナイザーの名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
- --hf-config-path
- 使用する Hugging Face 設定の名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
- --skip-tokenizer-init
-
tokenizer および detokenizer の初期化をスキップします。入力には、有効な
prompt_token_idsが含まれており、prompt は None である必要があります。生成された出力には、トークン ID が含まれます。 - --revision
- 使用する特定のモデルバージョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
- --code-revision
- Hugging Face Hub のモデルコードに使用する特定のリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
- --tokenizer-revision
- 使用する Hugging Face トークナイザーのリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
- --tokenizer-mode
トークンサイザーモード。
-
autoは、利用可能な場合は高速トークナイザーを使用します。 -
slowは、速度の遅いトークナイザーを使用します。 -
mistralは常に mistral_common トークンライザーを使用します。 -
customは--tokenizerを使用して、事前登録されたトークナイザーを選択します。
デフォルト値:
autoオプション:
auto、slow、mistral、custom-
- --trust-remote-code
- Hugging Face からのリモートコードを信頼します。
- --allowed-local-media-path
- API リクエストがサーバーファイルシステムで指定されたディレクトリーからローカルイメージまたはビデオを読み取ることを許可します。これはセキュリティー上のリスクです。信頼できる環境でのみ有効にする必要があります。
- --download-dir
- 重みをダウンロードしてロードするディレクトリー。デフォルトは Hugging Face のデフォルトのキャッシュディレクトリーです。
- --load-format
ロードするモデルの重みの形式。
デフォルト値:
autoオプション:
auto,pt,safetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer-
autoは、safetensors 形式で重みを読み込もうとし、safetensors 形式が利用できない場合は pytorch bin 形式にフォールバックします。 -
ptは、重みを pytorch bin 形式で読み込みます。 -
safetensorsは、重みを安全な形式で読み込みます。 -
npcacheは、重みを pytorch 形式でロードし、numpy キャッシュを保存して読み込みを高速化します。 -
dummyは、重みをランダムな値で初期化します。これは、主にプロファイリングを目的とします。 -
tensorizerは、CoreWeave の tensorizer を使用して重みを読み込みます。詳細は、例のセクションにある Tensorize AI Inference Server Model スクリプトを参照してください。 -
runai_streamerは、Run:aiModel Streamer を使用して Safetensors の重みをロードします。 -
bitsandbytesは、bitsandbytes の量子化を使用して重みを読み込みます。
-
- --config-format
ロードするモデル設定の形式。
オプション:
auto、hf、mistralautoは、hf 形式が利用できる場合はその形式で設定をロードしようとし、使用できない場合は mistral 形式でロードしようとします。デフォルト値:
ConfigFormat.AUTO- --dtype
モデルの重みとアクティベーションのデータ型。
デフォルト値:
autoオプション:
auto,half,float16,bfloat16,float,float32-
autoは、FP32 および FP16 モデルの場合は FP16 精度を使用し、BF16 モデルの場合は BF16 精度を使用します。 -
halfは、半精度の FP16 を使用します。AWQ 量子化に推奨されます。 -
float16はhalfと同じです。 -
精度と範囲のバランスをとるには
bfloat16を使用します。 -
floatは、FP32 の精度の省略形です。 -
FP32 精度の場合は
float32を使用します。
-
- --kv-cache-dtype
kv キャッシュストレージのデータタイプ。
autoの場合は、モデルデータ型を使用します。CUDA 11.8 以降はfp8(=fp8_e4m3) とfp8_e5m2をサポートします。ROCm (AMD GPU) はfp8(=fp8_e4m3) をサポートします。オプション:
auto、fp8、fp8_e5m2、fp8_e4m3デフォルト値:
auto
- --max-model-len
- モデルコンテキストの長さ。指定されていない場合は、値はモデル設定をもとに自動的に入力されます。
- --guided-decoding-backend
ガイド付きデコード (JSON スキーマ、正規表現など) にデフォルトで使用するエンジン。現在
outlines-dev/outlines、mlc-ai/xgrammar、noamgat/lm-format-enforcerをサポートしています。guided_decoding_backendパラメーターを使用してリクエストごとに上書きできます。バックエンド固有のオプションは、バックエンド名の後にコロンを付けて、コンマ区切りのリストで指定できます。有効なバックエンドと利用可能なすべてのオプションは次のとおりです。-
xgrammar:no-fallback, -
xgrammar:disable-any-whitespace, -
outlines:no-fallback, -
lm-format-enforcer:no-fallback
デフォルト値:
xgrammar-
- --logits-processor-pattern
- 有効な logits プロセッサー修飾名を指定するオプションの正規表現パターンで、logits_processors 追加補完引数で渡すことができます。デフォルトは None で、プロセッサーは使用できません。
- --model-impl
使用するモデルの実装。
デフォルト値:
autoオプション:
auto、vllm、transformers-
autoは、AI Inference Server の実装が存在する場合はそれを使用しようとし、AI Inference Server の実装が利用できない場合はトランスフォーマーの実装にフォールバックします。 -
vllmは、AI Inference Server モデル実装を使用します。 -
transformersは Transformers モデル実装を使用します。
-
- --distributed-executor-backend
分散モデルワーカーに使用するバックエンド。
rayまたはmp(マルチプロセッシング))。pipeline_parallel_sizeとtensor_parallel_sizeの積が使用可能な GPU の数以下の場合、mpを使用して単一のホストで処理を継続します。それ以外の場合、Ray がインストールされている場合はデフォルトでrayになり、そうでない場合は失敗します。TPU は分散推論に対して Ray のみをサポートすることに注意してください。オプション:
ray、mp、uni、external_launcher- --pipeline-parallel-size, -pp
モデルレイヤーを連続したパイプラインステージに分割してモデルを分割するノードの数。
デフォルト値: 1
- --tensor-parallel-size, -tp
モデルを複数の GPU に分割して、ストレージと計算負荷を共有します。
デフォルト値: 1
- --enable-expert-parallel
- MoE レイヤーにはテンソル並列処理ではなくエキスパート並列処理を使用します。
- --max-parallel-loading-workers
- テンソル並列および大規模モデルの使用時に RAM OOM を回避するために、モデルを複数のバッチで順番にロードします。
- --ray-workers-use-nsight
-
指定されている場合、
nsightを使用して Ray ワーカーのプロファイルを作成します。 - --block-size
連続するトークンのチャンクのトークンブロックサイズ。これは neuron デバイスで無視され、--max-model-len に設定されます。CUDA デバイスでは、最大 32 のブロックサイズのみがサポートされます。HPU デバイスでは、ブロックサイズのデフォルトは 128 です。
オプション: 8、16、32、64、128
- --enable-prefix-caching, --no-enable-prefix-caching
-
自動接頭辞キャッシュを有効にします。明示的に無効にするには
--no-enable-prefix-cachingを使用します。 - --disable-sliding-window
- スライディングウィンドウを無効にし、スライディングウィンドウのサイズを制限します。
- --use-v2-block-manager
-
非推奨: ブロックマネージャー v1 は削除され、
SelfAttnBlockSpaceManager(ブロックマネージャー v2) がデフォルトになりました。このフラグを True または False に設定しても、AI Inference Server の動作には影響しません。 - --num-lookahead-slots
speculative decoding (推測的デコーディング) に必要な実験的なスケジューリング設定。これは今後、推測的な設定に置き換えられますが、それまでは正確性テストを有効にするために存在します。
デフォルト値: 0
- --seed
- 操作のランダムシード。
- --swap-space
GPU あたりの CPU スワップ領域のサイズ (GiB)。
デフォルト値: 4
- --cpu-offload-gb
GPU ごとに CPU にオフロードするスペース (GiB 単位)。デフォルトは 0 で、オフロードがないことを意味します。直感的に言えば、この議論は GPU メモリーサイズを増やすための仮想的な方法と見ることができます。たとえば、24 GB の GPU が 1 つあり、これを 10 に設定すると、実質的には 34 GB の GPU と考えることができます。次に、重みが BF16 の 13B モデルをロードできますが、これには少なくとも 26GB の GPU メモリーが必要です。モデルの各フォワードパスでモデルの一部が CPU メモリーから GPU メモリーに動的にロードされるため、高速な CPU-GPU 相互接続が必要になることに注意してください。
デフォルト値: 0
- --gpu-memory-utilization
モデルエグゼキューターに使用される GPU メモリーの割合。範囲は 0 - 1 です。たとえば、値が 0.5 の場合、GPU メモリーの使用率は 50% になります。指定しない場合は、デフォルト値 0.9 が使用されます。これはインスタンスごとの制限であり、現在の AI Inference Server インスタンスにのみ適用されます。同じ GPU 上で別の AI Inference Server インスタンスが実行されていても問題ありません。たとえば、同じ GPU 上で 2 つの AI Inference Server インスタンスが実行されている場合、各インスタンスの GPU メモリー使用率を 0.5 に設定できます。
デフォルト値: 0.9
- --num-gpu-blocks-override
- 指定した場合、GPU プロファイリングの結果を無視し、この数の GPU ブロックを使用します。プリエンプションのテストに使用されます。
- --max-num-batched-tokens
- 反復ごとのバッチトークンの最大数。vLLM では、バッチは、各スケジューラーステップでモデルに共同で入力されるアクティブシーケンスのすべてのトークンのセットです。これは、「反復あたりのシーケンス」ではなく、「反復あたりのトークン」として測定されます。
- --max-num-partial-prefills
チャンクでの事前入力の場合、同時に実行される部分事前入力の最大数。デフォルトは 1 です。
デフォルト値: 1
- --max-long-partial-prefills
チャンクでの事前入力の場合は、自動入力されている --long-prefill-token-threshold よりも長いプロンプトの最大数。これを max_num_partial_prefills よりも小さい値を設定すると、場合によっては短いプロンプトが長いプロンプトの前にキューを飛び越して処理され、レイテンシーが改善されます。デフォルトは 1 です。
デフォルト値: 1
- --long-prefill-token-threshold
チャンクでの事前入力の場合、プロンプトがこのトークン数より長いと、リクエストは長いとみなされます。デフォルトではモデルのコンテキストの長さの 4% になります。
- デフォルト値: 0
- --max-num-seqs
- 反復ごとのシーケンスの最大数。
- --max-logprobs
logprobs を返すための logprobs の最大数は
SamplingParamsで指定されます。デフォルト値: 20
- --disable-log-stats
- 統計のログ記録を無効にします。
- --quantization, -q
重みを量子化するために使用される方法。None の場合は、まずモデル設定ファイルの quantization_config 属性を確認します。None の場合、モデルの重みは量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。
オプション:
aqlm,awq,deepspeedfp,tpu_int8,fp8,ptpc_fp8,fbgemm_fp8,modelopt,nvfp4,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,None- --rope-scaling
-
JSON 形式の RoPE スケーリング設定。例: {
rope_type:`dynamic`,factor:2.0} - --rope-theta
- RoPE シータ。rope_scaling で使用します。場合によっては、RoPE シータを変更すると、スケールモデルのパフォーマンスが向上します。
- --hf-overrides
- HuggingFace 設定の追加引数。これはディクショナリーに解析される JSON 文字列である必要があります。
- --enforce.-eager
- 常に eager-mode PyTorch を使用します。False の場合、パフォーマンスと柔軟性を最大限に高めるために、Eager モードと CUDA グラフをハイブリッドで使用します。
- --max-seq-len-to-capture
CUDA グラフでカバーされるシーケンスの最大長。シーケンスのコンテキスト長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。さらに、エンコーダー/デコーダーモデルの場合、エンコーダー入力のシーケンス長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。
デフォルト値: 8192
- --disable-custom-all-reduce
-
ParallelConfigを参照してください。 - --tokenizer-pool-size
非同期トークン化に使用するトークナイザープールのサイズ。0 の場合、同期トークン化を使用します。
デフォルト値: 0
- --tokenizer-pool-type
非同期トークン化に使用するトークナイザープールのタイプ。tokenizer_pool_size が 0 の場合は無視されます。
デフォルト値:
ray- --tokenizer-pool-extra-config
- トークナイザープールの追加設定。これはディクショナリーに解析される JSON 文字列である必要があります。tokenizer_pool_size が 0 の場合は無視されます。
- --limit-mm-per-prompt
- マルチモーダルプラグインごとに、各プロンプトで許可する入力インスタンスの数を制限します。項目はコンマで区切られたリストで指定します。たとえば、image=16,video=2 の場合、プロンプトごとに最大 16 枚のイメージと 2 本のビデオが許可されます。モーダルごとのデフォルトは 1 です。
- --mm-processor-kwargs
-
マルチモーダル入力マッピングおよび処理 (イメージプロセッサーなど) をオーバーライドします。例:
{num_crops: 4} - --disable-mm-preprocessor-cache
- true の場合、マルチモーダルプリプロセッサーとマッパーのキャッシュが無効になります。(非推奨)
- --enable-lora
- True の場合、LoRA アダプターの処理が有効になります。
- --enable-lora-bias
- True の場合、LoRA アダプターのバイアスを有効にします。
- --max-loras
単一バッチ内の LoRA の最大数。
デフォルト値: 1
- --max-lora-rank
最大 LoRA ランク。
デフォルト値: 16
- --lora-extra-vocab-size
LoRA アダプターに存在できる追加語彙の最大サイズ (基本のモデル語彙に追加)。
デフォルト値: 256
- --lora-dtype
LoRA のデータ型。auto の場合、デフォルトで基本モデルの dtype になります。
デフォルト値:
autoオプション:
auto、float16、bfloat16- --long-lora-scaling-factors
- 複数のスケーリング係数 (基本モデルのスケーリング係数とは異なる場合があります。例:Long LoRA を参照) を指定して、それらのスケーリング係数でトレーニングされた複数の LoRA アダプターを同時に使用できるようにします。指定しない場合は、基本モデルのスケーリング係数でトレーニングされたアダプターのみが許可されます。
- --max-cpu-loras
-
CPU メモリーに保存する LoRA の最大数。
max_lorasより大きくなければなりません。デフォルトはmax_lorasです。 - --fully-sharded-loras
- デフォルトでは、LoRA 計算の半分のみがピュレーターの並列処理の半分になります。これを有効にすると、完全にシャード化されたレイヤーが使用されます。シーケンスの長さ、ランク、またはテンソルの並列サイズが大きい場合、おそらくこれは高速になります。
- --enable-prompt-adapter
-
True の場合は、
PromptAdaptersの処理を有効にします。 - --max-prompt-adapters
バッチの
PromptAdaptersの最大数。デフォルト値: 1
- --max-prompt-adapter-token
PromptAdaptersトークンの最大数デフォルト値: 0
- --device
AI Inference Server 実行用のデバイスタイプ。
オプション:
auto,cuda,neuron,cpu,openvino,tpu,xpu,hpuデフォルト値:
auto- --num-scheduler-steps
スケジューラー呼び出しごとの最大のフォワードステップ数。
デフォルト値: 1
- --use-tqdm-on-load, --no-use-tqdm-on-load
モデルの重みを読み込むときに進捗バーを有効にするか無効にするかを指定します。
デフォルト値: True
- --multi-step-stream-outputs
False の場合、マルチステップはすべてのステップの最後に出力をストリーミングします。
デフォルト値: True
- --scheduler-delay-factor
次のプロンプトをスケジュールする前に、遅延 (遅延係数×前回のプロンプトの遅延) を適用します。
デフォルト値: 0.0
- --enable-chunked-prefill
-
設定されている場合、事前入力リクエストは
max_num_batched_tokensに基づいてチャンク化できます。 - --speculative-model
- 推測的デコーディングで使用されるドラフトモデルの名前。
- --speculative-model-quantization
推測的モデルの重みを量子化するために使用される方法。None の場合、AI Inference Server は最初にモデル設定ファイルの
quantization_config属性をチェックします。None の場合、AI Inference Server はモデルの重みが量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。オプション:
aqlm,awq,deepspeedfp,tpu_int8,fp8,ptpc_fp8,fbgemm_fp8,modelopt,nvfp4,marlin,gguf,gptq_marlin_24,gptq_marlin,awq_marlin,gptq,compressed-tensors,bitsandbytes,qqq,hqq,experts_int8,neuron_quant,ipex,quark,moe_wna16,None- --num-speculative-tokens
- 推測的デコーディングでドラフトモデルからサンプリングする推測的トークンの数。
- --speculative-disable-mqa-scorer
- True に設定すると、MQA スコアラーは推測的に無効になり、バッチ拡張にフォールバックします。
- --speculative-draft-tensor-parallel-size, -spec-draft-tp
- 推測的デコーディングにおけるドラフトモデルのテンソル並列レプリカの数。
- --speculative-max-model-len
- ドラフトモデルでサポートされる最大シーケンス長。この長さを超えるシーケンスは推測をスキップします。
- --speculative-disable-by-batch-size
- エンキュー要求の数がこの値より大きい場合、新しい受信要求に対する推測的デコードを無効にします。
- --ngram-prompt-lookup-max
- 推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最大サイズ。
- --ngram-prompt-lookup-min
- 推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最小サイズ。
- --spec-decoding-acceptance-method
推測的デコーディングで、ドラフトトークン検証時に使用する受け入れ方法を指定します。2 種類の承認ルーチンがサポートされています。
-
RejectionSampler: ドラフトトークンの承認率を変更できません。 TypicalAcceptanceSampler: 設定可能。品質を犠牲にして受け入れ率を高くしたり、その逆を行ったりできます。デフォルト値:
rejection_samplerオプション:
rejection_sampler、normal_acceptance_sampler
-
- --typical-acceptance-sampler-posterior-threshold
-
トークンが受け入れられる事後確率の下限しきい値を設定します。このしきい値は、
TypicalAcceptanceSamplerによって、推測的デコーディング中にサンプリングの決定を行うために使用されます。デフォルトは 0.09 です。 - --typical-acceptance-sampler-posterior-alpha
-
TypicalAcceptanceSamplerにおけるトークン受け入れのエントロピーベースのしきい値のスケーリング係数。通常、--typical-acceptance-sampler-posterior-thresholdの平方根 (例: 0.3) がデフォルトになります。 - --disable-logprobs-during-spec-decoding
-
True に設定すると、推測的デコーディング中にトークンログ確率は返されません。False に設定すると、
SamplingParamsの設定に従って、ログ確率が返されます。指定しない場合はデフォルトで True になります。推測的デコーディング中にログ確率を無効にすると、提案サンプリング、ターゲットサンプリング、および受け入れられたトークンが決定された後のlogprob計算がスキップされるため、レイテンシーが短縮されます。 - --model-loader-extra-config
-
モデルローダーの追加設定。これは、選択されたものに対応するモデルローダーに渡されます。
load_format.これはディクショナリーに解析される JSON 文字列である必要があります。 - --ignore.-patterns
モデルをロードするときに無視するパターン。llama のチェックポイントの繰り返し読み込みを避けるために、デフォルトは
original/**/*になります。デフォルト値: []
- --preemption-mode
-
recomputeの場合、エンジンは再計算によってプリエンプションを実行します。swapの場合、エンジンはブロックスワップによってプリエンプションを実行します。 - --served-model-name
-
API で使用されるモデル名。複数の名前が指定された場合、サーバーは指定された名前のいずれかに応答します。応答のモデルフィールドのモデル名は、このリストの最初の名前です。指定しない場合、モデル名は
--models引数と同じになります。名前は、Prometheus メトリックのmodel_nameタグコンテンツでも使用されることに注意してください。複数の名前が指定された場合、メトリクスタグは最初の名前を取得します。 - --qlora-adapter-name-or-path
- QLoRA アダプターの名前またはパス。
- --show-hidden-metrics-for-version
-
指定されたバージョン以降で非表示になっている非推奨の Prometheus メトリクスを有効にします。たとえば、以前非推奨になったメトリクスが v0.7.0 リリース以降非表示になっている場合は、新しいメトリクスに移行する間の一時的なエスケープハッチとして
--show-hidden-metrics-for-version=0.7を使用します。このメトリクスは、今後のリリースで完全に削除される可能性があります。 - --otlp-traces-endpoint
- OpenTelemetry トレースが送信されるターゲット URL。
- --collects-detailed-traces
-
有効な選択肢は、
model、workers、allです。--otlp-traces-endpointが設定されている場合にのみこれを設定する意味があります。設定されている場合、サーバーは指定されたモジュールの詳細なトレースを収集します。これには、コストがかかったり、ブロックしたりする可能性のある操作が含まれるため、パフォーマンスに影響が出る可能性があります。 - --disable-async-output-proc
- 非同期の出力処理を無効にします。これにより、パフォーマンスが低下する可能性があります。
- --scheduling-policy
使用するスケジューリングポリシー。
fcfs(先着順、リクエストは到着順に処理されます。デフォルト) またはpriority(リクエストは指定された優先度に基づいて処理され、値が低いほど早く処理されます。同点の場合は到着時間によって決定されます)。デフォルト値:
fcfsオプション:
fcfs,priority- --scheduler-cls
使用するスケジューラークラス。
vllm.core.scheduler.Schedulerはデフォルトのスケジューラーです。直接クラスまたはmod.custom_class形式のクラスへのパスを指定できます。デフォルト値:
vllm.core.scheduler.Scheduler- --override-neuron-config
-
ニューロンデバイス設定を上書きまたは設定します (例:
{cast_logits_dtype: bloat16})。 - --override-pooler-config
-
プーリングモデルのプーリングメソッドをオーバーライドまたは設定します (例: {
pooling_type:mean,normalize: false})。 - --compilation-config, -O
-
モデル用の
torch.compile設定。数字 (0、1、2、3) の場合は最適化レベルとして解釈されます。注意: レベル 0 は最適化なしのデフォルトレベルです。レベル 1 と 2 は内部テスト専用です。レベル 3 は実稼働環境での推奨レベルです。完全なコンパイル設定を指定するには、JSON 文字列を使用します。従来のコンパイラーの慣例に従い、スペースなしの -O の使用もサポートされています。-O3 は -O 3 と同等です。 - --kv-transfer-config
- 分散 KV キャッシュ転送の設定。JSON 文字列である必要があります。
- --worker-cls
分散実行に使用するワーカークラス。
デフォルト値:
auto- --worker-extension-cls
- ワーカー CLS の上にあるワーカー拡張クラスは、既存の機能を変更せずにワーカークラスに新しい機能を追加する場合に便利です。
- --generation-config
生成設定へのフォルダーパス。デフォルトは
autoで、生成設定はモデルパスから読み込まれます。設定する場合。vllm、生成設定は読み込まれず、AI Inference Server のデフォルトが使用されます。フォルダーパスに設定すると、指定されたフォルダーパスから生成設定が読み込まれます。生成設定でmax_new_tokensが指定されている場合は、すべてのリクエストの出力トークンの数にサーバー全体の制限が設定されます。デフォルト値:
auto- --override-generation-config
-
生成設定を JSON 形式でオーバーライドまたは設定します (例:
{temperature: 0.5})。--generation-config=autoと一緒に使用すると、オーバーライドパラメーターはモデルのデフォルト設定とマージされます。generation-config が None の場合、オーバーライドパラメーターのみが使用されます。 - --enable-sleep-mode
- エンジンのスリープモードを有効にします。CUDA プラットフォームでのみサポートされます。
- --calculate-kv-scales
-
これにより
kv-cache-dtypeがfp8の場合にk_scaleとv_scaleの動的な計算が可能になります。calculate-kv-scalesが false の場合、スケールはモデルチェックポイントからロードされます (利用可能な場合)。それ以外の場合、デフォルトは 1.0 です。 - --additional-config
-
指定されたプラットフォームの追加設定 (JSON 形式)。プラットフォームによってサポートされる設定が異なる場合があります。使用しているプラットフォームに対して設定が有効であることを確認してください。入力形式は
{<config_key>: <config_value>}のようになります。 - --enable-reasoning
-
モデルの
reasoning_contentを有効にするかどうか。有効にすると、モデルは推論コンテンツを生成できるようになります。 - .--reasoning-parser
使用しているモデルに応じて推論パーサーを選択します。これは推論コンテンツを OpenAI API 形式に解析するために使用されます。
--enable-reasoningに必須です。オプション:
deepseek_r1- --chat-template
- ロール、メッセージ、その他のチャット固有のトークンが入力でどのようにエンコードされるかを指定する Jinja2 テンプレートを渡します。詳細は、チャットテンプレート を参照してください。
- --tool-call-parser
-
オプション:
deepseek_v3、granite-20b-fc、granite、hermes、internlm、jamba、llama4_json、llama3_json、mistral、phi4_mini_json、pythonic、または--tool-parser-pluginに登録された名前。 - --cuda-graph-sizes
CUDA グラフのキャプチャーサイズ。デフォルトは 512 です。値が 1 つ指定されている場合、キャプチャーリストは、
[1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)]のパターンに従います。複数の値 (例: 1 2 128) が指定されている場合、キャプチャーリストは指定のリストに従います。デフォルト: 512
- --data-parallel-address, -dpa
- データ並列クラスターのヘッドノードのアドレス。
- --data-parallel-rpc-port, -dpp
- データ並列 RPC 通信用のポート。
- --data-parallel-size, -dp
データ並列グループの数。MoE レイヤーは、テンソル並列サイズとデータ並列サイズの積に応じて分割されます。
デフォルト: 1
- --data-parallel-size-local, -dpl
- このノードで実行されるデータ並列レプリカの数。
- --disable-cascade-attn, --no-disable-cascade-attn
V1 のカスケードアテンションを無効にします。カスケードアテンションは数学的な正確性を確保します。ただし、これを無効にすると、数値的な問題が発生する可能性を回避するのに役立ちます。これを False に設定しても、カスケードアテンションはヒューリスティックによって有益であると判断された場合にのみ使用されることに注意してください。
デフォルト: False
- --disable-chunked-mm-input, --no-disable-chunked-mm-input
true に設定され、チャンクの事前入力が有効になっている場合は、マルチモーダルアイテムを部分的にスケジュールしないでください。V1 でのみ使用されます。これにより、リクエストに混合プロンプト (たとえば、テキストトークン TTTT の後にイメージトークン IIIIIIIIII が続く) があり、一部のイメージトークンのみをスケジュールできる場合 (たとえば、TTTTIIIII があった場合に、IIIII を残す)、アイテムは 1 つのステップで TTTT としてスケジュールされ、次のステップで IIIIIIIIII としてスケジュールされます。
デフォルト: False
- --enable-prompt-embeds, --no-enable-prompt-embeds
True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。
デフォルト: False
- --enable-prompt-embeds, --no-enable-prompt-embeds
True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。
デフォルト: False
- --guided-decoding-disable-additional-properties, --no-guided-decoding-disable-additional-properties
True の場合、ガイダンスバックエンドは JSON スキーマ内の
additionalPropertiesを使用しません。これはガイダンスバックエンドに対してのみサポートされており、アウトラインおよびxgrammarとの動作をより適切に調整するために使用されます。デフォルト: False
- --guided-decoding-disable-any-whitespace, ::--no-guided-decoding-disable-any-whitespace
True の場合、このモデルはガイド付きデコーディング中に、空白生成しません。これは、xgrammar および guidance バックエンドでのみサポートされます。
デフォルト: False
- --guided-decoding-disable-fallback, --no-guided-decoding-disable-fallback
True の場合、vLLM はエラー時に別のバックエンドにフォールバックしません。
デフォルト: False
- --hf-token
-
リモートファイルの HTTP ベアラー認可として使用するトークン。True の場合、
huggingface-cliログインの実行時に生成され、~/.huggingfaceに保存されているトークンを使用します。 - --kv-events-config
- イベント公開の設定。有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
- --prefix-caching-hash-algo
接頭辞キャッシュのハッシュアルゴリズムを設定します。
オプション:
builtin、sha256-
builtinは、Python の組み込みハッシュです。 -
sha256は競合耐性がありますが、一定のオーバーヘッドがあります。
デフォルト:
builtin-
- --pt-load-map-location
pytorch チェックポイントをロードするためのマップの場所。チェックポイントのロードをサポートするには、
cudaなどの特定のデバイスでのみロードできます。これは{": "cuda"}と同等です。サポートされている別の形式は、GPU 1 から GPU 0 など、異なるデバイスからのマッピングです ({"cuda:1": "cuda:0"})。コマンドラインから渡す場合、辞書内の文字列は JSON 解析のために二重引用符で囲む必要があることに注意してください。詳細は、https://pytorch.org/docs/stable/generated/torch.load.html のmap_locationのオリジナルドキュメントを参照してください。デフォルト:
cpu- --speculative-config
- 推測的デコーディングの設定。JSON 文字列である必要があります。
- --ssl-keyfile
- PEM 形式の TLS 秘密鍵の場所。