第2章 vLLM サーバー引数の全リスト


以下は、vllm serve コマンドで使用できる vLLM サーバー引数の包括的なリストです。各サーバー引数およびデフォルト値を説明します。

2.1. vLLM のサーバー引数

--model

使用する Hugging Face モデルの名前またはパス。

デフォルト値: facebook/opt-125m

--task

モデルを使用するタスク。同じモデルを複数のタスクに使用できる場合でも、各 AI Inference Server インスタンスがサポートするのは 1 つのタスクのみです。モデルが 1 つのタスクのみをサポートする場合は、auto を使用してそのタスクを選択できます。それ以外の場合は、使用するタスクを明示的に指定する必要があります。

デフォルト値: auto

オプション: auto, generate, embedding, embed, classify, score, reward, transcription

--tokenizer
使用する Hugging Face トークナイザーの名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
--hf-config-path
使用する Hugging Face 設定の名前またはパス。指定しない場合は、モデル名またはパスが使用されます。
--skip-tokenizer-init
tokenizer および detokenizer の初期化をスキップします。入力には、有効な prompt_token_ids が含まれており、prompt は None である必要があります。生成された出力には、トークン ID が含まれます。
--revision
使用する特定のモデルバージョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
--code-revision
Hugging Face Hub のモデルコードに使用する特定のリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
--tokenizer-revision
使用する Hugging Face トークナイザーのリビジョン。ブランチ名、タグ名、またはコミット ID を指定できます。指定しない場合、デフォルトのバージョンを使用します。
--tokenizer-mode

トークンサイザーモード。

  • auto は、利用可能な場合は高速トークナイザーを使用します。
  • slow は、速度の遅いトークナイザーを使用します。
  • mistral は常に mistral_common トークンライザーを使用します。
  • custom--tokenizer を使用して、事前登録されたトークナイザーを選択します。

デフォルト値: auto

オプション: autoslowmistralcustom

--trust-remote-code
Hugging Face からのリモートコードを信頼します。
--allowed-local-media-path
API リクエストがサーバーファイルシステムで指定されたディレクトリーからローカルイメージまたはビデオを読み取ることを許可します。これはセキュリティー上のリスクです。信頼できる環境でのみ有効にする必要があります。
--download-dir
重みをダウンロードしてロードするディレクトリー。デフォルトは Hugging Face のデフォルトのキャッシュディレクトリーです。
--load-format

ロードするモデルの重みの形式。

デフォルト値: auto

オプション: auto, pt, safetensors, npcache, dummy, tensorizer, sharded_state, gguf, bitsandbytes, mistral, runai_streamer

  • auto は、safetensors 形式で重みを読み込もうとし、safetensors 形式が利用できない場合は pytorch bin 形式にフォールバックします。
  • pt は、重みを pytorch bin 形式で読み込みます。
  • safetensors は、重みを安全な形式で読み込みます。
  • npcache は、重みを pytorch 形式でロードし、numpy キャッシュを保存して読み込みを高速化します。
  • dummy は、重みをランダムな値で初期化します。これは、主にプロファイリングを目的とします。
  • tensorizer は、CoreWeave の tensorizer を使用して重みを読み込みます。詳細は、例のセクションにある Tensorize AI Inference Server Model スクリプトを参照してください。
  • runai_streamer は、Run:aiModel Streamer を使用して Safetensors の重みをロードします。
  • bitsandbytes は、bitsandbytes の量子化を使用して重みを読み込みます。
--config-format

ロードするモデル設定の形式。

オプション: autohfmistral

auto は、hf 形式が利用できる場合はその形式で設定をロードしようとし、使用できない場合は mistral 形式でロードしようとします。

デフォルト値: ConfigFormat.AUTO

--dtype

モデルの重みとアクティベーションのデータ型。

デフォルト値: auto

オプション: auto, half, float16, bfloat16, float, float32

  • auto は、FP32 および FP16 モデルの場合は FP16 精度を使用し、BF16 モデルの場合は BF16 精度を使用します。
  • half は、半精度の FP16 を使用します。AWQ 量子化に推奨されます。
  • float16half と同じです。
  • 精度と範囲のバランスをとるには bfloat16 を使用します。
  • float は、FP32 の精度の省略形です。
  • FP32 精度の場合は float32 を使用します。
--kv-cache-dtype

kv キャッシュストレージのデータタイプ。auto の場合は、モデルデータ型を使用します。CUDA 11.8 以降は fp8 (=fp8_e4m3) と fp8_e5m2 をサポートします。ROCm (AMD GPU) は fp8 (=fp8_e4m3) をサポートします。

オプション: autofp8fp8_e5m2fp8_e4m3

デフォルト値: auto

--max-model-len
モデルコンテキストの長さ。指定されていない場合は、値はモデル設定をもとに自動的に入力されます。
--guided-decoding-backend

ガイド付きデコード (JSON スキーマ、正規表現など) にデフォルトで使用するエンジン。現在 outlines-dev/outlinesmlc-ai/xgrammarnoamgat/lm-format-enforcer をサポートしています。guided_decoding_backend パラメーターを使用してリクエストごとに上書きできます。バックエンド固有のオプションは、バックエンド名の後にコロンを付けて、コンマ区切りのリストで指定できます。有効なバックエンドと利用可能なすべてのオプションは次のとおりです。

  • xgrammar:no-fallback,
  • xgrammar:disable-any-whitespace,
  • outlines:no-fallback,
  • lm-format-enforcer:no-fallback

デフォルト値: xgrammar

--logits-processor-pattern
有効な logits プロセッサー修飾名を指定するオプションの正規表現パターンで、logits_processors 追加補完引数で渡すことができます。デフォルトは None で、プロセッサーは使用できません。
--model-impl

使用するモデルの実装。

デフォルト値: auto

オプション: autovllmtransformers

  • auto は、AI Inference Server の実装が存在する場合はそれを使用しようとし、AI Inference Server の実装が利用できない場合はトランスフォーマーの実装にフォールバックします。
  • vllm は、AI Inference Server モデル実装を使用します。
  • transformers は Transformers モデル実装を使用します。
--distributed-executor-backend

分散モデルワーカーに使用するバックエンド。ray または mp (マルチプロセッシング))。pipeline_parallel_sizetensor_parallel_size の積が使用可能な GPU の数以下の場合、mp を使用して単一のホストで処理を継続します。それ以外の場合、Ray がインストールされている場合はデフォルトで ray になり、そうでない場合は失敗します。TPU は分散推論に対して Ray のみをサポートすることに注意してください。

オプション: raympuniexternal_launcher

--pipeline-parallel-size, -pp

モデルレイヤーを連続したパイプラインステージに分割してモデルを分割するノードの数。

デフォルト値: 1

--tensor-parallel-size, -tp

モデルを複数の GPU に分割して、ストレージと計算負荷を共有します。

デフォルト値: 1

--enable-expert-parallel
MoE レイヤーにはテンソル並列処理ではなくエキスパート並列処理を使用します。
--max-parallel-loading-workers
テンソル並列および大規模モデルの使用時に RAM OOM を回避するために、モデルを複数のバッチで順番にロードします。
--ray-workers-use-nsight
指定されている場合、nsight を使用して Ray ワーカーのプロファイルを作成します。
--block-size

連続するトークンのチャンクのトークンブロックサイズ。これは neuron デバイスで無視され、--max-model-len に設定されます。CUDA デバイスでは、最大 32 のブロックサイズのみがサポートされます。HPU デバイスでは、ブロックサイズのデフォルトは 128 です。

オプション: 8、16、32、64、128

--enable-prefix-caching, --no-enable-prefix-caching
自動接頭辞キャッシュを有効にします。明示的に無効にするには --no-enable-prefix-caching を使用します。
--disable-sliding-window
スライディングウィンドウを無効にし、スライディングウィンドウのサイズを制限します。
--use-v2-block-manager
非推奨: ブロックマネージャー v1 は削除され、SelfAttnBlockSpaceManager (ブロックマネージャー v2) がデフォルトになりました。このフラグを True または False に設定しても、AI Inference Server の動作には影響しません。
--num-lookahead-slots

speculative decoding (推測的デコーディング) に必要な実験的なスケジューリング設定。これは今後、推測的な設定に置き換えられますが、それまでは正確性テストを有効にするために存在します。

デフォルト値: 0

--seed
操作のランダムシード。
--swap-space

GPU あたりの CPU スワップ領域のサイズ (GiB)。

デフォルト値: 4

--cpu-offload-gb

GPU ごとに CPU にオフロードするスペース (GiB 単位)。デフォルトは 0 で、オフロードがないことを意味します。直感的に言えば、この議論は GPU メモリーサイズを増やすための仮想的な方法と見ることができます。たとえば、24 GB の GPU が 1 つあり、これを 10 に設定すると、実質的には 34 GB の GPU と考えることができます。次に、重みが BF16 の 13B モデルをロードできますが、これには少なくとも 26GB の GPU メモリーが必要です。モデルの各フォワードパスでモデルの一部が CPU メモリーから GPU メモリーに動的にロードされるため、高速な CPU-GPU 相互接続が必要になることに注意してください。

デフォルト値: 0

--gpu-memory-utilization

モデルエグゼキューターに使用される GPU メモリーの割合。範囲は 0 - 1 です。たとえば、値が 0.5 の場合、GPU メモリーの使用率は 50% になります。指定しない場合は、デフォルト値 0.9 が使用されます。これはインスタンスごとの制限であり、現在の AI Inference Server インスタンスにのみ適用されます。同じ GPU 上で別の AI Inference Server インスタンスが実行されていても問題ありません。たとえば、同じ GPU 上で 2 つの AI Inference Server インスタンスが実行されている場合、各インスタンスの GPU メモリー使用率を 0.5 に設定できます。

デフォルト値: 0.9

--num-gpu-blocks-override
指定した場合、GPU プロファイリングの結果を無視し、この数の GPU ブロックを使用します。プリエンプションのテストに使用されます。
--max-num-batched-tokens
反復ごとのバッチトークンの最大数。vLLM では、バッチは、各スケジューラーステップでモデルに共同で入力されるアクティブシーケンスのすべてのトークンのセットです。これは、「反復あたりのシーケンス」ではなく、「反復あたりのトークン」として測定されます。
--max-num-partial-prefills

チャンクでの事前入力の場合、同時に実行される部分事前入力の最大数。デフォルトは 1 です。

デフォルト値: 1

--max-long-partial-prefills

チャンクでの事前入力の場合は、自動入力されている --long-prefill-token-threshold よりも長いプロンプトの最大数。これを max_num_partial_prefills よりも小さい値を設定すると、場合によっては短いプロンプトが長いプロンプトの前にキューを飛び越して処理され、レイテンシーが改善されます。デフォルトは 1 です。

デフォルト値: 1

--long-prefill-token-threshold

チャンクでの事前入力の場合、プロンプトがこのトークン数より長いと、リクエストは長いとみなされます。デフォルトではモデルのコンテキストの長さの 4% になります。

  • デフォルト値: 0
--max-num-seqs
反復ごとのシーケンスの最大数。
--max-logprobs

logprobs を返すための logprobs の最大数は SamplingParams で指定されます。

デフォルト値: 20

--disable-log-stats
統計のログ記録を無効にします。
--quantization, -q

重みを量子化するために使用される方法。None の場合は、まずモデル設定ファイルの quantization_config 属性を確認します。None の場合、モデルの重みは量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。

オプション: aqlm, awq, deepspeedfp, tpu_int8, fp8, ptpc_fp8, fbgemm_fp8, modelopt, nvfp4, marlin, gguf, gptq_marlin_24, gptq_marlin, awq_marlin, gptq, compressed-tensors, bitsandbytes, qqq, hqq, experts_int8, neuron_quant, ipex, quark, moe_wna16, None

--rope-scaling
JSON 形式の RoPE スケーリング設定。例: {rope_type:`dynamic`,factor:2.0}
--rope-theta
RoPE シータ。rope_scaling で使用します。場合によっては、RoPE シータを変更すると、スケールモデルのパフォーマンスが向上します。
--hf-overrides
HuggingFace 設定の追加引数。これはディクショナリーに解析される JSON 文字列である必要があります。
--enforce.-eager
常に eager-mode PyTorch を使用します。False の場合、パフォーマンスと柔軟性を最大限に高めるために、Eager モードと CUDA グラフをハイブリッドで使用します。
--max-seq-len-to-capture

CUDA グラフでカバーされるシーケンスの最大長。シーケンスのコンテキスト長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。さらに、エンコーダー/デコーダーモデルの場合、エンコーダー入力のシーケンス長がこれより大きい場合、AI Inference Server は Eager モードにフォールバックします。

デフォルト値: 8192

--disable-custom-all-reduce
ParallelConfig を参照してください。
--tokenizer-pool-size

非同期トークン化に使用するトークナイザープールのサイズ。0 の場合、同期トークン化を使用します。

デフォルト値: 0

--tokenizer-pool-type

非同期トークン化に使用するトークナイザープールのタイプ。tokenizer_pool_size が 0 の場合は無視されます。

デフォルト値: ray

--tokenizer-pool-extra-config
トークナイザープールの追加設定。これはディクショナリーに解析される JSON 文字列である必要があります。tokenizer_pool_size が 0 の場合は無視されます。
--limit-mm-per-prompt
マルチモーダルプラグインごとに、各プロンプトで許可する入力インスタンスの数を制限します。項目はコンマで区切られたリストで指定します。たとえば、image=16,video=2 の場合、プロンプトごとに最大 16 枚のイメージと 2 本のビデオが許可されます。モーダルごとのデフォルトは 1 です。
--mm-processor-kwargs
マルチモーダル入力マッピングおよび処理 (イメージプロセッサーなど) をオーバーライドします。例: {num_crops: 4}
--disable-mm-preprocessor-cache
true の場合、マルチモーダルプリプロセッサーとマッパーのキャッシュが無効になります。(非推奨)
--enable-lora
True の場合、LoRA アダプターの処理が有効になります。
--enable-lora-bias
True の場合、LoRA アダプターのバイアスを有効にします。
--max-loras

単一バッチ内の LoRA の最大数。

デフォルト値: 1

--max-lora-rank

最大 LoRA ランク。

デフォルト値: 16

--lora-extra-vocab-size

LoRA アダプターに存在できる追加語彙の最大サイズ (基本のモデル語彙に追加)。

デフォルト値: 256

--lora-dtype

LoRA のデータ型。auto の場合、デフォルトで基本モデルの dtype になります。

デフォルト値: auto

オプション: autofloat16bfloat16

--long-lora-scaling-factors
複数のスケーリング係数 (基本モデルのスケーリング係数とは異なる場合があります。例:Long LoRA を参照) を指定して、それらのスケーリング係数でトレーニングされた複数の LoRA アダプターを同時に使用できるようにします。指定しない場合は、基本モデルのスケーリング係数でトレーニングされたアダプターのみが許可されます。
--max-cpu-loras
CPU メモリーに保存する LoRA の最大数。max_loras より大きくなければなりません。デフォルトは max_loras です。
--fully-sharded-loras
デフォルトでは、LoRA 計算の半分のみがピュレーターの並列処理の半分になります。これを有効にすると、完全にシャード化されたレイヤーが使用されます。シーケンスの長さ、ランク、またはテンソルの並列サイズが大きい場合、おそらくこれは高速になります。
--enable-prompt-adapter
True の場合は、PromptAdapters の処理を有効にします。
--max-prompt-adapters

バッチの PromptAdapters の最大数。

デフォルト値: 1

--max-prompt-adapter-token

PromptAdapters トークンの最大数

デフォルト値: 0

--device

AI Inference Server 実行用のデバイスタイプ。

オプション: auto, cuda, neuron, cpu, openvino, tpu, xpu, hpu

デフォルト値: auto

--num-scheduler-steps

スケジューラー呼び出しごとの最大のフォワードステップ数。

デフォルト値: 1

--use-tqdm-on-load, --no-use-tqdm-on-load

モデルの重みを読み込むときに進捗バーを有効にするか無効にするかを指定します。

デフォルト値: True

--multi-step-stream-outputs

False の場合、マルチステップはすべてのステップの最後に出力をストリーミングします。

デフォルト値: True

--scheduler-delay-factor

次のプロンプトをスケジュールする前に、遅延 (遅延係数×前回のプロンプトの遅延) を適用します。

デフォルト値: 0.0

--enable-chunked-prefill
設定されている場合、事前入力リクエストは max_num_batched_tokens に基づいてチャンク化できます。
--speculative-model
推測的デコーディングで使用されるドラフトモデルの名前。
--speculative-model-quantization

推測的モデルの重みを量子化するために使用される方法。None の場合、AI Inference Server は最初にモデル設定ファイルの quantization_config 属性をチェックします。None の場合、AI Inference Server はモデルの重みが量子化されていないと想定し、dtype を使用して重みのデータ型を決定します。

オプション: aqlm, awq, deepspeedfp, tpu_int8, fp8, ptpc_fp8, fbgemm_fp8, modelopt, nvfp4, marlin, gguf, gptq_marlin_24, gptq_marlin, awq_marlin, gptq, compressed-tensors, bitsandbytes, qqq, hqq, experts_int8, neuron_quant, ipex, quark, moe_wna16, None

--num-speculative-tokens
推測的デコーディングでドラフトモデルからサンプリングする推測的トークンの数。
--speculative-disable-mqa-scorer
True に設定すると、MQA スコアラーは推測的に無効になり、バッチ拡張にフォールバックします。
--speculative-draft-tensor-parallel-size, -spec-draft-tp
推測的デコーディングにおけるドラフトモデルのテンソル並列レプリカの数。
--speculative-max-model-len
ドラフトモデルでサポートされる最大シーケンス長。この長さを超えるシーケンスは推測をスキップします。
--speculative-disable-by-batch-size
エンキュー要求の数がこの値より大きい場合、新しい受信要求に対する推測的デコードを無効にします。
--ngram-prompt-lookup-max
推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最大サイズ。
--ngram-prompt-lookup-min
推測的デコーディングによる ngram プロンプトルックアップのウィンドウの最小サイズ。
--spec-decoding-acceptance-method

推測的デコーディングで、ドラフトトークン検証時に使用する受け入れ方法を指定します。2 種類の承認ルーチンがサポートされています。

  1. RejectionSampler: ドラフトトークンの承認率を変更できません。
  2. TypicalAcceptanceSampler: 設定可能。品質を犠牲にして受け入れ率を高くしたり、その逆を行ったりできます。

    デフォルト値: rejection_sampler

    オプション: rejection_samplernormal_acceptance_sampler

--typical-acceptance-sampler-posterior-threshold
トークンが受け入れられる事後確率の下限しきい値を設定します。このしきい値は、TypicalAcceptanceSampler によって、推測的デコーディング中にサンプリングの決定を行うために使用されます。デフォルトは 0.09 です。
--typical-acceptance-sampler-posterior-alpha
TypicalAcceptanceSampler におけるトークン受け入れのエントロピーベースのしきい値のスケーリング係数。通常、--typical-acceptance-sampler-posterior-threshold の平方根 (例: 0.3) がデフォルトになります。
--disable-logprobs-during-spec-decoding
True に設定すると、推測的デコーディング中にトークンログ確率は返されません。False に設定すると、SamplingParams の設定に従って、ログ確率が返されます。指定しない場合はデフォルトで True になります。推測的デコーディング中にログ確率を無効にすると、提案サンプリング、ターゲットサンプリング、および受け入れられたトークンが決定された後の logprob 計算がスキップされるため、レイテンシーが短縮されます。
--model-loader-extra-config
モデルローダーの追加設定。これは、選択されたものに対応するモデルローダーに渡されます。load_format.これはディクショナリーに解析される JSON 文字列である必要があります。
--ignore.-patterns

モデルをロードするときに無視するパターン。llama のチェックポイントの繰り返し読み込みを避けるために、デフォルトは original/**/* になります。

デフォルト値: []

--preemption-mode
recompute の場合、エンジンは再計算によってプリエンプションを実行します。swap の場合、エンジンはブロックスワップによってプリエンプションを実行します。
--served-model-name
API で使用されるモデル名。複数の名前が指定された場合、サーバーは指定された名前のいずれかに応答します。応答のモデルフィールドのモデル名は、このリストの最初の名前です。指定しない場合、モデル名は --models 引数と同じになります。名前は、Prometheus メトリックの model_name タグコンテンツでも使用されることに注意してください。複数の名前が指定された場合、メトリクスタグは最初の名前を取得します。
--qlora-adapter-name-or-path
QLoRA アダプターの名前またはパス。
--show-hidden-metrics-for-version
指定されたバージョン以降で非表示になっている非推奨の Prometheus メトリクスを有効にします。たとえば、以前非推奨になったメトリクスが v0.7.0 リリース以降非表示になっている場合は、新しいメトリクスに移行する間の一時的なエスケープハッチとして --show-hidden-metrics-for-version=0.7 を使用します。このメトリクスは、今後のリリースで完全に削除される可能性があります。
--otlp-traces-endpoint
OpenTelemetry トレースが送信されるターゲット URL。
--collects-detailed-traces
有効な選択肢は、modelworkersall です。--otlp-traces-endpoint が設定されている場合にのみこれを設定する意味があります。設定されている場合、サーバーは指定されたモジュールの詳細なトレースを収集します。これには、コストがかかったり、ブロックしたりする可能性のある操作が含まれるため、パフォーマンスに影響が出る可能性があります。
--disable-async-output-proc
非同期の出力処理を無効にします。これにより、パフォーマンスが低下する可能性があります。
--scheduling-policy

使用するスケジューリングポリシー。fcfs (先着順、リクエストは到着順に処理されます。デフォルト) または priority (リクエストは指定された優先度に基づいて処理され、値が低いほど早く処理されます。同点の場合は到着時間によって決定されます)。

デフォルト値: fcfs

オプション: fcfs, priority

--scheduler-cls

使用するスケジューラークラス。vllm.core.scheduler.Scheduler はデフォルトのスケジューラーです。直接クラスまたは mod.custom_class 形式のクラスへのパスを指定できます。

デフォルト値: vllm.core.scheduler.Scheduler

--override-neuron-config
ニューロンデバイス設定を上書きまたは設定します (例: {cast_logits_dtype: bloat16})
--override-pooler-config
プーリングモデルのプーリングメソッドをオーバーライドまたは設定します (例: {pooling_type: mean, normalize: false})。
--compilation-config, -O
モデル用の torch.compile 設定。数字 (0、1、2、3) の場合は最適化レベルとして解釈されます。注意: レベル 0 は最適化なしのデフォルトレベルです。レベル 1 と 2 は内部テスト専用です。レベル 3 は実稼働環境での推奨レベルです。完全なコンパイル設定を指定するには、JSON 文字列を使用します。従来のコンパイラーの慣例に従い、スペースなしの -O の使用もサポートされています。-O3 は -O 3 と同等です。
--kv-transfer-config
分散 KV キャッシュ転送の設定。JSON 文字列である必要があります。
--worker-cls

分散実行に使用するワーカークラス。

デフォルト値: auto

--worker-extension-cls
ワーカー CLS の上にあるワーカー拡張クラスは、既存の機能を変更せずにワーカークラスに新しい機能を追加する場合に便利です。
--generation-config

生成設定へのフォルダーパス。デフォルトは auto で、生成設定はモデルパスから読み込まれます。設定する場合。vllm、生成設定は読み込まれず、AI Inference Server のデフォルトが使用されます。フォルダーパスに設定すると、指定されたフォルダーパスから生成設定が読み込まれます。生成設定で max_new_tokens が指定されている場合は、すべてのリクエストの出力トークンの数にサーバー全体の制限が設定されます。

デフォルト値: auto

--override-generation-config
生成設定を JSON 形式でオーバーライドまたは設定します (例: {temperature: 0.5})--generation-config=auto と一緒に使用すると、オーバーライドパラメーターはモデルのデフォルト設定とマージされます。generation-config が None の場合、オーバーライドパラメーターのみが使用されます。
--enable-sleep-mode
エンジンのスリープモードを有効にします。CUDA プラットフォームでのみサポートされます。
--calculate-kv-scales
これにより kv-cache-dtypefp8 の場合に k_scalev_scale の動的な計算が可能になります。calculate-kv-scales が false の場合、スケールはモデルチェックポイントからロードされます (利用可能な場合)。それ以外の場合、デフォルトは 1.0 です。
--additional-config
指定されたプラットフォームの追加設定 (JSON 形式)。プラットフォームによってサポートされる設定が異なる場合があります。使用しているプラットフォームに対して設定が有効であることを確認してください。入力形式は {<config_key>: <config_value>} のようになります。
--enable-reasoning
モデルの reasoning_content を有効にするかどうか。有効にすると、モデルは推論コンテンツを生成できるようになります。
.--reasoning-parser

使用しているモデルに応じて推論パーサーを選択します。これは推論コンテンツを OpenAI API 形式に解析するために使用されます。--enable-reasoning に必須です。

オプション: deepseek_r1

--chat-template
ロール、メッセージ、その他のチャット固有のトークンが入力でどのようにエンコードされるかを指定する Jinja2 テンプレートを渡します。詳細は、チャットテンプレート を参照してください。
--tool-call-parser
オプション: deepseek_v3granite-20b-fcgranitehermesinternlmjamballama4_jsonllama3_jsonmistralphi4_mini_jsonpythonic、または --tool-parser-plugin に登録された名前。
--cuda-graph-sizes

CUDA グラフのキャプチャーサイズ。デフォルトは 512 です。値が 1 つ指定されている場合、キャプチャーリストは、[1, 2, 4] + [i for i in range(8, cuda_graph_sizes + 1, 8)] のパターンに従います。複数の値 (例: 1 2 128) が指定されている場合、キャプチャーリストは指定のリストに従います。

デフォルト: 512

--data-parallel-address, -dpa
データ並列クラスターのヘッドノードのアドレス。
--data-parallel-rpc-port, -dpp
データ並列 RPC 通信用のポート。
--data-parallel-size, -dp

データ並列グループの数。MoE レイヤーは、テンソル並列サイズとデータ並列サイズの積に応じて分割されます。

デフォルト: 1

--data-parallel-size-local, -dpl
このノードで実行されるデータ並列レプリカの数。
--disable-cascade-attn, --no-disable-cascade-attn

V1 のカスケードアテンションを無効にします。カスケードアテンションは数学的な正確性を確保します。ただし、これを無効にすると、数値的な問題が発生する可能性を回避するのに役立ちます。これを False に設定しても、カスケードアテンションはヒューリスティックによって有益であると判断された場合にのみ使用されることに注意してください。

デフォルト: False

--disable-chunked-mm-input, --no-disable-chunked-mm-input

true に設定され、チャンクの事前入力が有効になっている場合は、マルチモーダルアイテムを部分的にスケジュールしないでください。V1 でのみ使用されます。これにより、リクエストに混合プロンプト (たとえば、テキストトークン TTTT の後にイメージトークン IIIIIIIIII が続く) があり、一部のイメージトークンのみをスケジュールできる場合 (たとえば、TTTTIIIII があった場合に、IIIII を残す)、アイテムは 1 つのステップで TTTT としてスケジュールされ、次のステップで IIIIIIIIII としてスケジュールされます。

デフォルト: False

--enable-prompt-embeds, --no-enable-prompt-embeds

True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。

デフォルト: False

--enable-prompt-embeds, --no-enable-prompt-embeds

True の場合、prompt_embeds キーを介してテキスト埋め込みを入力として渡すことができます。これを有効にすると、グラフのコンパイルに必要な時間が 2 倍になることに注意してください。

デフォルト: False

--guided-decoding-disable-additional-properties, --no-guided-decoding-disable-additional-properties

True の場合、ガイダンスバックエンドは JSON スキーマ内の additionalProperties を使用しません。これはガイダンスバックエンドに対してのみサポートされており、アウトラインおよび xgrammar との動作をより適切に調整するために使用されます。

デフォルト: False

--guided-decoding-disable-any-whitespace, ::--no-guided-decoding-disable-any-whitespace

True の場合、このモデルはガイド付きデコーディング中に、空白生成しません。これは、xgrammar および guidance バックエンドでのみサポートされます。

デフォルト: False

--guided-decoding-disable-fallback, --no-guided-decoding-disable-fallback

True の場合、vLLM はエラー時に別のバックエンドにフォールバックしません。

デフォルト: False

--hf-token
リモートファイルの HTTP ベアラー認可として使用するトークン。True の場合、huggingface-cli ログインの実行時に生成され、~/.huggingface に保存されているトークンを使用します。
--kv-events-config
イベント公開の設定。有効な JSON 文字列または個別に渡される JSON キーのいずれかである必要があります。
--prefix-caching-hash-algo

接頭辞キャッシュのハッシュアルゴリズムを設定します。

オプション: builtinsha256

  • builtin は、Python の組み込みハッシュです。
  • sha256 は競合耐性がありますが、一定のオーバーヘッドがあります。

デフォルト: builtin

--pt-load-map-location

pytorch チェックポイントをロードするためのマップの場所。チェックポイントのロードをサポートするには、cuda などの特定のデバイスでのみロードできます。これは {": "cuda"} と同等です。サポートされている別の形式は、GPU 1 から GPU 0 など、異なるデバイスからのマッピングです ({"cuda:1": "cuda:0"})。コマンドラインから渡す場合、辞書内の文字列は JSON 解析のために二重引用符で囲む必要があることに注意してください。詳細は、https://pytorch.org/docs/stable/generated/torch.load.htmlmap_location のオリジナルドキュメントを参照してください。

デフォルト: cpu

--speculative-config
推測的デコーディングの設定。JSON 文字列である必要があります。
--ssl-keyfile
PEM 形式の TLS 秘密鍵の場所。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat