第 2 章 vLLM 服务器参数的完整列表
以下是可与 vllm serve
命令一起使用的 vLLM 服务器参数的完整列表。提供了每个服务器参数和默认值的说明。
2.1. vLLM 服务器参数
- --model
要使用的 Hugging Face 模型的名称或路径。
默认值:
facebook/opt-125m
- --task
使用模型的任务。每个 AI Inference 服务器实例只支持一个任务,即使同一模型可用于多个任务。当模型仅支持一个任务时,可以使用
auto
来选择它;否则,您必须明确指定要使用的任务。默认值 :
auto
选项 :
auto
,generate
,embedding
,embed
,classify
,score
,reward
,transcription
- --tokenizer
- 要使用的 Hugging Face tokenizer 的名称或路径。如果未指定,则使用模型名称或路径。
- --hf-config-path
- 要使用的 Hugging Face 配置的名称或路径。如果未指定,则使用模型名称或路径。
- --skip-tokenizer-init
-
跳过令牌程序和解码初始化。预期从输入中有效的
prompt_token_ids
和 None 以提示。生成的输出将包含令牌 ID。 - --revision
- 要使用的特定模型版本。它可以是分支名称、标签名称或提交 id。如果未指定,则使用默认版本。
- --code-revision
- 用于 Hugging Face Hub 上模型代码的特定修订版本。它可以是分支名称、标签名称或提交 id。如果未指定,则使用默认版本。
- --tokenizer-revision
- 要使用的 Hugging Face tokenizer 的修订。它可以是分支名称、标签名称或提交 id。如果未指定,则使用默认版本。
- --tokenizer-mode
令牌程序模式。
-
auto
使用快速令牌程序(如果可用)。 -
慢速
使用较慢的令牌程序。 -
mistral
始终使用 mistral_common 令牌器。 -
自定义
use-tokenizer
来选择预注册的令牌工具程序。
默认值 :
auto
选项 :
auto
,slow
,mistral
,custom
-
- --trust-remote-code
- 信任 Hugging Face 的远程代码。
- --allowed-local-media-path
- 允许 API 请求从服务器文件系统指定的目录中读取本地镜像或视频。这是一个安全风险。应该只在可信环境中启用。
- --download-dir
- 用于下载和加载权重的目录,默认为 Hugging Face 的默认缓存目录。
- --load-format
要载入的模型权重的格式。
默认值 :
auto
选项 :
auto
,pt
,securetensors
,npcache
,dummy
,tensorizer
,sharded_state
,gguf
,bitsandbytes
,mistral
,runai_streamer
-
auto
尝试以 securetensors 格式加载权重,并在 securetensors 格式不可用时回退到 pytorch bin 格式。 -
pt
以 pytorch bin 格式加载权重。 -
Securetensors
以 securetensors 格式加载权重。 -
npcache
以 pytorch 格式加载权重,并存储 numpy 缓存以加快负载。 -
dummy
使用随机值初始化权重,这主要用于性能分析。 -
10sorizer
使用 CoreWeave 中的 10sorizer 加载权重。如需更多信息,请参阅 Examples 部分中的 Tensorize AI Inference Server Model script。 -
runai_streamer
使用 Run:aiModel Streamer 加载 Safetensors weights -
位和字节
使用位和字节量来加载权重。
-
- --config-format
要载入的模型配置的格式。
选项 :
auto
、hf
、mistral
如果可用,则自动尝试以 hf 格式加载配置(如果不可用),请尝试以 mistral 格式加载。
默认值:
ConfigFormat.AUTO
- --dtype
模型权重和激活的数据类型。
默认值 :
auto
选项 :
auto
,half
,float16
,bfloat16
,float
,float32
-
auto
将 FP16 精度用于 FP32 和 FP16 模型,并将 BF16 精度用于 BF16 模型。 -
一半
表示 FP16。建议 AWQ 量化。 -
float16
与一半
相同。 -
Bfloat16
,用于精度和范围之间的平衡。 -
浮点
数简写为 FP32 精度。 -
float32
用于 FP32 精度。
-
- --kv-cache-dtype
kv 缓存存储的数据类型。如果为
auto
,则使用 model 数据类型。CUDA 11.8+ 支持fp8
(=fp8_e4m3
)和fp8_e5m2
。ROCm (AMD GPU)支持fp8
(=fp8_e4m3
)选项 :
auto
,fp8
,fp8_e5m2
,fp8_e4m3
默认值 :
auto
- --max-model-len
- 模型上下文长度.如果未指定,则会自动从模型配置派生值。
- --guided-decoding-backend
默认用于引导解码(JSON 模式、正则表达式等)的引擎。目前支持 outline
-dev/outlines
、mlc-ai/xgrammar
、noamgat/lm-format-enforcer
。可以通过guided_decoding_backend
参数覆盖每个请求。在后端名称后,可以在以逗号分隔的列表中提供特定于后端的选项。有效的后端和所有可用选项包括:-
xgrammar:no-fallback
, -
xgrammar:disable-any-whitespace
, -
outline:no-fallback
, -
lm-format-enforcer:no-fallback
默认值 :
xgrammar
-
- --logits-processor-pattern
- 可选正则表达式模式指定可以使用 logits_processors extra completion 参数传递的有效日志限定名称。默认为 None,不允许处理器。
- --model-impl
要使用的模型的实现。
默认值 :
auto
选项 :
auto
,vllm
,转换器
-
如果已存在
,则自动尝试使用 AI Inference 服务器实现,并在没有 AI Inference Server 实施的情况下回退到 Transformers 实施。 -
vllm
使用 AI Inference Server 模型实现。 -
转换器
使用 Transformers 模型实现。
-
- --distributed-executor-backend
用于分布式模型 worker 的后端,可以是
ray
或mp
(多处理)。如果pipeline_parallel_size
和 10sor_parallel_size
的产品小于或等于可用的 GPU 数量,则mp
用于在单个主机上保持处理。否则,如果安装了 Ray,则默认为ray
,否则会失败。请注意,TPU 仅支持 Ray 进行分布式推测。选项 :
ray
,mp
,uni
,external_launcher
- --pipeline-parallel-size, -pp
通过将模型层划分为后续管道阶段来划分模型的节点数量。
默认值: 1
- --tensor-parallel-size, -tp
在多个 GPU 中分割模型以共享存储和计算负载。
默认值: 1
- --enable-expert-parallel
- 对于 MoE 层,使用专家并行性而不是十个并行性。
- --max-parallel-loading-workers
- 在多个批处理中按顺序加载模型,以避免使用十个程序并行和大型模型时的 RAM OOM。
- --ot-workers-use-nsight
-
如果指定,使用
nsight
来对 Ray worker 进行性能分析。 - --block-size
令牌连续块的令牌块大小.这在 neuron 设备中会被忽略,并设置为 --max-model-len。在 CUDA 设备中,只支持块大小最多 32 个。在 HPU 设备上,块大小默认为 128。
选项 : 8、16、32、64、128
- --enable-prefix-caching, --no-enable-prefix-caching
-
启用自动前缀缓存。use
--no-enable-prefix-caching
可明确禁用。 - --disable-sliding-window
- 禁用滑动窗口,对窗口大小进行上限。
- --use-v2-block-manager
-
DEPRECATED: 块管理器 v1 已被删除,并且
SelfAttnBlockSpaceManager
(块管理器 v2)现在是默认的。将此标志设置为 True 或 False 对 AI Inference 服务器行为没有影响。 - --num-lookahead-slots
规范解码所需的实验性调度配置。这由将来被 speculative 配置替代,它会被存在来启用正确的测试,直到它为止。
默认值: 0
- --seed
- 随机 seed 用于操作。
- --swap-space
每个 GPU 的 CPU 交换空间大小(GiB)。
默认值 :4
- --cpu-offload-gb
GiB 中每个 GPU 卸载 CPU 的空间。默认值为 0,表示没有卸载。直观地,此参数可以被看成一种增加 GPU 内存大小的虚拟方式。例如,如果您有一个 24 GB GPU 并把它设置为 10,则虚拟您可以将其视为 34 GB GPU。然后,您可以使用 BF16 权重加载 13B 模型,它至少需要 26GB GPU 内存。请注意,这需要快速 CPU-GPU 互连,因为型号在每次模型转发过程中从 CPU 内存加载到 GPU 内存。
默认值: 0
- --gpu-memory-utilization
用于模型 executor 的 GPU 内存的比例,范围从 0 到 1。例如,值 0.5 意味着 50% 的 GPU 内存使用率。如果未指定,则使用默认值 0.9.这是一个针对每个实例的限制,仅适用于当前的 AI Inference 服务器实例。如果您有同一 GPU 上运行的另一个 AI Inference 服务器实例,则这无关紧要。例如,如果您在同一 GPU 上运行两个 AI Inference 服务器实例,您可以将每个实例的 GPU 内存使用率设置为 0.5。
默认值 :0.9
- --num-gpu-blocks-override
- 如果指定,忽略 GPU 分析结果并使用这个数量的 GPU 块。用于测试抢占。
- --max-num-batched-tokens
- 每个迭代的最大批处理令牌数量。在 vLLM 中,批处理是来自活跃序列的所有令牌集合,这些令牌在每个调度程序步骤中共同进入模型。它被衡量为 "tokens per iteration",而不是每个迭代的 "sequences"。
- --max-num-partial-prefills
对于块预先填充,并发部分预先填充的最大数量。默认到 1
默认值: 1
- --max-long-partial-prefills
对于块预先填充的预填充,最大提示数量超过同时填充的 --long-prefill-token-threshold。设置小于 --max-num.-partial-prefills 时,可以缩短提示,在一些情况下,在较长的提示前跳过队列,从而提高了延迟。默认为 1。
默认值: 1
- --long-prefill-token-threshold
对于块预先填充,如果提示符的时间超过这个数量的令牌,则请求会被视为很长时间。默认为模型上下文长度的 4%。
- 默认值: 0
- --max-num-seqs
- 每个迭代的最大序列数。
- --max-logprobs
返回 logprobs 的最大日志数量在
SamplingParams
中指定。默认值 :20
- --disable-log-stats
- 禁用日志记录统计信息。
- --quantization, -q
用于量化权重的方法。如果为 None,则首先检查模型配置文件中的 quantization_config 属性。如果是 None,假设模型权重没有量化,并使用 dtype 来确定权重的数据类型。
选项:
aqlm
,awq
,deepspeedfp
,tpu_int8
,fp8
,ptpc_fp8
,fbgemm_fp8
,modelopt
,nvfp4
,marlin
,gguf
,gptq_marlin_24
,gptq_mar
lin, awq_mar
lin, gpt
q, compressed-tens
ors, bitsand
bytes, q
q ,hq ,
experts_int8
, neuron_qu
ant, ip
ex, qua
rk, moe_wna
16,
None- --rope-scaling
-
JSON 格式的 RoPE 扩展配置。例如,{
rope_type
:'dynamic',factor
:2.0} - --rope-theta
- RoPE 达州.与 rope_scaling 一起使用。在某些情况下,更改 RoPE 可提高扩展模型的性能。
- --hf-overrides
- HuggingFace 配置的额外参数。这应该是一个 JSON 字符串,它被解析为字典中。
- --enforce.-eager
- 始终使用 eager-mode PyTorch。如果为 False,在混合中使用 eager 模式和 CUDA 图形获得最大性能和灵活性。
- --max-seq-len-to-capture
CUDA 图形涵盖的最大序列长度。当序列的上下文长度大于这个值时,AI Inference 服务器会返回 eager 模式。另外,对于 encoder-decoder 模型,如果编码器输入的序列长度大于这种情况,AI Inference 服务器会返回 eager 模式。
默认值 :8192
- --disable-custom-all-reduce
-
请参阅
ParallelConfig
。 - --tokenizer-pool-size
用于异步令牌的令牌程序池的大小。如果为 0,则使用同步令牌。
默认值: 0
- --tokenizer-pool-type
用于异步令牌的令牌程序池类型。如果 tokenizer_pool_size 为 0,则忽略。
默认值 :
ray
- --tokenizer-pool-extra-config
- 令牌程序池的额外配置。这应该是一个 JSON 字符串,它被解析为字典中。如果 tokenizer_pool_size. 为 0,则忽略。
- --limit-mm-per-prompt
- 对于每个多模式插件,限制每个提示允许多少输入实例。需要以逗号分隔的项目列表,例如:image=16,video=2 允许每个提示最多 16 个镜像和 2 视频。对于每个模态,默认为 1。
- --MM-processor-kwargs
-
覆盖多模式输入映射和处理,如镜像处理器。例如:
{num_crops: 4}
。 - --disable-mm-preprocessor-cache
- 如果为 true,则禁用多模式预处理器和映射程序的缓存。(不推荐)
- --enable-lora
- 如果为 True,启用对 LoRA 适配器的处理。
- --enable-lora-bias
- 如果为 True,为 LoRA 适配器启用 bias。
- --max-loras
单个批处理中的最大 LoRA 数。
默认值: 1
- --max-lora-rank
最大 LoRA 排名.
默认值 :16
- --lora-extra-vocab-size
LoRA 适配器(添加到基本模型词汇)中可以存在的最大额外词汇大小。
默认值 :256
- --lora-dtype
LoRA 的数据类型.如果为 auto,则默认为 base model dtype。
默认值 :
auto
选项 :
auto
,float16
,bfloat16
- --long-lora-scaling-factors
- 指定多个扩展因素(可以与基础模型扩展因素不同 - 例如,LoRA)允许多个 LoRA 适配器同时接受这些扩展因素。如果没有指定,则只允许使用基本模型扩展因素培训的适配器。
- --max-cpu-loras
-
在 CPU 内存中存储的最大 LoRA 数。必须大于
max_loras
。默认为max_loras
。 - --fully-sharded-loras
- 默认情况下,只有一半的 LoRA 计算使用 10sor parallelism 进行分片。启用该操作会使用完全分片的层。在高序列长度中,最大排名或几十个并行大小可能更快。
- --enable-prompt-adapter
-
如果为 True,启用
PromptAdapters
处理。 - --max-prompt-adapters
批处理中
提示器
的最大数量。默认值: 1
- --max-prompt-adapter-token
PromptAdapters
令牌的最大数量默认值: 0
- --device
AI Inference 服务器执行的设备类型。
选项 :
auto
,cuda
,neuron
,cpu
,openvino
,tpu
,xpu
,hpu
默认值 :
auto
- --num-scheduler-steps
每个调度程序调用的最大转发步骤数。
默认值: 1
- --use-tqdm-on-load, --no-use-tqdm-on-load
在载入模型权重时是否启用或禁用进度条。
默认值 :True
- --multi-step-stream-outputs
如果为 False,则多步骤将在所有步骤的末尾流输出
默认值 :True
- --scheduler-delay-factor
在调度下一个提示前,应用延迟(延迟因素乘以以前的提示延迟)。
默认值 : 0.0
- --enable-chunked-prefill
-
如果设置,则预先填充请求可根据
max_num_batched_tokens
进行块。 - --speculative-model
- 要在规范解码中使用的草案模型名称。
- --speculative-model-quantization
用于量化规范模型权重的方法。如果为 None,AI Inference 服务器首先检查模型配置文件中的
quantization_config
属性。如果是 None,AI Inference 服务器假设模型权重没有量化,并使用 dtype 来确定权重的数据类型。选项:
aqlm
,awq
,deepspeedfp
,tpu_int8
,fp8
,ptpc_fp8
,fbgemm_fp8
,modelopt
,nvfp4
,marlin
,gguf
,gptq_marlin_24
,gptq_mar
lin, awq_mar
lin, gpt
q, compressed-tens
ors, bitsand
bytes, q
q ,hq ,
experts_int8
, neuron_qu
ant, ip
ex, qua
rk, moe_wna
16,
None- --num-speculative-tokens
- 在规范解码中,从草案模型中到示例的规范令牌数量。
- --speculative-disable-mqa-scorer
- 如果设置为 True,则 MQA 分数在推测时被禁用,并返回批处理扩展。
- --speculative-draft-tensor-parallel-size, -spec-draft-tp
- 以规范解码为草案模型的十个并行副本数。
- --speculative-max-model-len
- 草案模型支持的最大序列长度。通过这个长度的序列将跳过推测。
- --speculative-disable-by-batch-size
- 如果 enqueue 请求数大于这个值,则为新的传入的请求禁用规范解码。
- --ngram-prompt-lookup-max
- 在规范解码中,用于 ngram 提示符查询的最大窗口大小。
- --ngram-prompt-lookup-min
- 在规范解码中,用于 ngram 提示符查询的最小窗口大小。
- --spec-decoding-acceptance-method
指定在规范解码中草案令牌验证过程中使用的验收方法。支持两种类型的接受例程:
-
RejectionSampler
:不允许更改接受草案令牌, TypicalAcceptanceSampler
: Configurable,以较低质量的代价实现更高的接受率,反之亦然。默认值:
rejection_sampler
options:
rejection_sampler
,typical_acceptance_sampler
-
- --typical-acceptance-sampler-posterior-threshold
-
为令牌的时间线率设置下限阈值。Typical
AcceptanceSampler 使用
这个阈值在规范解码期间做出抽样决策。默认值为 0.09。 - --typical-acceptance-sampler-posterior-alpha
-
TypicalAcceptanceSampler
中令牌接受的基于熵阈值的扩展因子。通常默认为方括号 root of-typical-acceptance-sampler-posterior-threshold
,如 0.3。 - --disable-logprobs-during-spec-decoding
-
如果设置为 True,则在指定解码过程中不会返回令牌日志探测。如果设置为 False,则根据
SamplingParams
中的设置返回日志概率。如果没有指定,则默认为 True。在规范解码过程中禁用日志概率可减少延迟,方法是在决定接受的令牌时跳过logprob
计算来降低延迟。 - --model-loader-extra-config
-
模型加载程序的额外配置。这被传递给与所选相关的模型加载程序。
load_format
.这应该是一个 JSON 字符串,它被解析为字典中。 - --ignore.-patterns
加载模型时要忽略的模式。默认为
original/**Thycotic
,以避免重复加载 llama 的检查点。默认值: []
- --preemption-mode
-
如果
重新计算
,引擎通过重新计算来执行抢占;如果交换
,引擎通过块交换来执行抢占。 - --served-model-name
-
API 中使用的模型名称。如果提供了多个名称,服务器将响应任何提供的名称。响应的 model 字段中的型号名称是此列表中的名字。如果没有指定,模型名称与 the-
models
参数相同。请注意,名称也用于 Prometheus 指标的model_name
标签内容。如果提供了多个名称,则 metrics 标签将采用第一个名称。 - --qlora-adapter-name-or-path
- QLoRA 适配器的名称或路径。
- --show-hidden-metrics-for-version
-
启用自指定版本后隐藏的已弃用的 Prometheus 指标。例如,自 v0.7.0 发布以来,如果之前已弃用的指标已被隐藏,您可以在
迁移到新指标时,使用--show-hidden-metrics-for-version=0.7
作为临时转义。指标可能会在即将推出的发行版本中完全删除。 - --otlp-traces-endpoint
- 将 OpenTelemetry 跟踪发送到的目标 URL。
- --collects-detailed-traces
-
有效选择包括
模型
、worker
、所有
。仅在设置了 if-otlp-traces-endpoint
时设置它才有意义。如果设置,服务器会为指定模块收集详细的追踪。这涉及使用可能昂贵的或阻塞操作,因此可能会对性能有影响。 - --disable-async-output-proc
- 禁用 async 输出处理。这可能会导致性能下降。
- --scheduling-policy
要使用的调度策略。
fcfs
(第一个提供第一个服务),以 arrival 的顺序处理请求;默认(根据给定的优先级处理请求,较低值意味着更早的处理;以及 arrival 确定任何绑定的时间)。默认值 :
fcfs
选项 :
fcfs
、priority
- --scheduler-cls
要使用的调度程序类。
vllm.core.scheduler.Scheduler
是默认的调度程序。可以直接是一个类,也可以是形成mod.custom_class
类的路径。默认值:
vllm.core.scheduler.Scheduler
- --override-neuron-config
-
override 或 set neuron 设备配置,例如
{cast_logits_dtype: bloat16}
。 - --override-pooler-config
-
覆盖或设置池模型的池方法,例如 {
pooling_type
:mean
,normalize
: false}。 - --compilation-config, -O
-
模型的
torch.compile
配置。当它是一个数字(0、1、2、3)时,它被解释为优化级别。注意:级别 0 是没有任何优化的默认级别。级别 1 和 2 仅用于内部测试。3 级是生产环境的建议级别。要指定完整编译配置,请使用 JSON 字符串。按照传统编译器的惯例,使用 -O 时没有空格。-O3 等同于 -O 3。 - --kv-transfer-config
- 分布式 KV 缓存传输的配置。应该是一个 JSON 字符串。
- --worker-cls
用于分布式执行的 worker 类。
默认值 :
auto
- --worker-extension-cls
- worker 上的 worker 扩展类冲突,如果您只想在不更改现有功能的情况下向 worker 类添加新功能,则这很有用。
- --generation-config
生成配置的文件夹路径。默认为
auto
,生成配置是从模型路径加载的。如果设置为:vllm
,没有加载生成配置,使用 AI Inference Server 默认值。如果设置为文件夹路径,则会从指定的文件夹路径加载生成配置。如果在生成配置中指定max_new_tokens.
,它会为所有请求设置服务器端令牌数量。默认值 :
auto
- --override-generation-config
-
覆盖或设置 JSON 格式的生成配置,例如
{temperature: 0.5}
。如果与-generation-config=auto
一起使用,则覆盖参数与模型中的默认配置合并。如果 generation-config 是 None,则只使用覆盖参数。 - --enable-sleep-mode
- 为引擎启用睡眠模式。仅支持 CUDA 平台。
- --calculate-kv-scales
-
这可启用
k_scale
和v_scale
的动态计算,当kv-cache-dtype
为fp8
时。如果compute-kv-scales
为 false,则扩展会从模型检查点加载(如果可用)。否则,将默认扩展到 1.0。 - --additional-config
-
JSON 格式指定平台的额外配置。不同的平台可能支持不同的配置。确保配置对您要使用的平台有效。输入格式类似
{<config_key>: <config_value>}
- --enable-reasoning
-
是否为模型启用
reasoning_content
。如果启用,模型可以生成原因内容。 - .--reasoning-parser
根据您使用的型号,选择原因解析器。这用于将内容解析为 OpenAI API 格式。需要进行-
-enable-reasoning
。options:
deepseek_r1
- --chat-template
- 传递 Jinja2 模板,用于指定角色、消息和其他特定于聊天的令牌的方式在输入中编码。如需更多信息,请参阅 Chat Template。
- --tool-call-parser
-
选项:
deepseek_v3
,granite-20b-fc
,granite
, heitmes ,
internlm
,jamba
,llama4_json
,llama3_json
,mistral
,phi4_mini_json
,pythonic
, 或 name registered in-tool-parser-plugin
. - --cuda-graph-sizes
CUDA 图形捕获大小,默认为 512。如果提供了一个值,则捕获列表将遵循以下模式:[
1, 2, 4] + [i for i in range (8, cuda_graph_sizes + 1, 8)]
提供多个值(例如,1 2 128),然后捕获列表将遵循提供的列表。默认 :512
- --data-parallel-address, -dpa
- 数据并行集群头节点的地址。
- --data-parallel-rpc-port, -dpp
- 数据并行 RPC 通信的端口。
- --data-parallel-size, -dp
数据并行组数量。moe 层根据数十个并行大小和数据并行大小的产品进行分片。
默认 :1
- --data-parallel-size-local, -dpl
- 此节点上运行的数据并行副本数。
- --disable-cascade-attn, --no-disable-cascade-attn
对 V1 禁用级关注。虽然级联的关注不会更改数学正确性,但禁用它对于防止潜在的数字问题非常有用。请注意,即使这被设置为 False,只有 heuristics 告知它很有用时才使用级联注意。
默认 :False
- --disable-chunked-mm-input, --no-disable-chunked-mm-input
如果设置为 true,并且启用了块的预先填充,请不要部分调度多模式项目。仅在 V1 中使用。这样可确保如果请求具有混合提示(例如,文本令牌 TTTT,后跟镜像令牌三IIIIIIIIIIIIIII),其中只能调度某些镜像令牌(例如,TTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII),该项目被调度为镜像令牌,其中只能调度某些镜像令牌(例如,TTTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII),确保,如果请求具有混合提示(例如,离开三IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII
默认 :False
- --enable-prompt-embeds, --no-enable-prompt-embeds
如果为 True,启用通过 prompt_embeds 键以输入形式传递文本。请注意,启用这将加倍图形编译所需的时间。
默认 :False
- --enable-prompt-embeds, --no-enable-prompt-embeds
如果为 True,启用通过 prompt_embeds 键以输入形式传递文本。请注意,启用这将加倍图形编译所需的时间。
默认 :False
- --guided-decoding-disable-additional-properties, --no-guided-decoding-disable-additional-properties
如果为 True,则指导后端不会在 JSON 模式中使用
additionalProperties
。这只支持指导后端,用于更好地保持行为与概述和xgrammar
保持一致。默认 :False
- --guided-decoding-disable-any-whitespace, ::--no-guided-decoding-disable-any-whitespace
如果为 True,则模型不会在引导解码过程中生成任何空格。这只支持 xgrammar 和 guidance 后端。
默认 :False
- --guided-decoding-disable-fallback, --no-guided-decoding-disable-fallback
如果为 True,vLLM 不会回退到错误的不同后端。
默认 :False
- --hf-token
-
用作远程文件的 HTTP bearer 授权的令牌。如果为 True,请使用在运行
huggingface-cli
登录时生成的令牌,存储在~/.huggingface
中。 - --kv-events-config
- 事件发布的配置。应该是有效的 JSON 字符串或 JSON 密钥。
- --prefix-caching-hash-algo
为前缀缓存设置哈希算法:
选项 :
内置
、sha256
-
builtin
是 Python 的内置哈希。 -
SHA256
冲突冲突,但存在某些开销。
默认 :
builtin
-
- --pt-load-map-location
加载 pytorch 检查点的映射位置,以支持加载检查点只能加载到某些设备上,如
cuda
,这等同于{": "cuda"}
。另一种支持的格式是从不同的设备(如 GPU 1 到 GPU 0:{"cuda:1": "cuda:0"}
)映射。请注意,如果从命令行传递,字典中的字符串需要用双引号括起来用于 json 解析。如需了解更多详细信息,请参阅 https://pytorch.org/docs/stable/generated/torch.load.html中的map_location
原始 doc默认 :
cpu
- --speculative-config
- 推测解码的配置。应该是一个 JSON 字符串。
- --ssl-keyfile
- PEM 格式的 TLS 私钥的位置。