第 2 章 vLLM 服务器参数的完整列表

以下是可与 vllm serve 命令一起使用的 vLLM 服务器参数的完整列表。提供了每个服务器参数和默认值的说明。

2.1. vLLM 服务器参数
复制链接

--model

要使用的 Hugging Face 模型的名称或路径。

默认值:facebook/opt-125m

--task

使用模型的任务。每个 AI Inference 服务器实例只支持一个任务，即使同一模型可用于多个任务。当模型仅支持一个任务时，可以使用 auto 来选择它；否则，您必须明确指定要使用的任务。

默认值 ：auto

选项：auto,generate,embedding,embed,classify,score,reward,transcription

--tokenizer

要使用的 Hugging Face tokenizer 的名称或路径。如果未指定，则使用模型名称或路径。

--hf-config-path

要使用的 Hugging Face 配置的名称或路径。如果未指定，则使用模型名称或路径。

--skip-tokenizer-init

跳过令牌程序和解码初始化。预期从输入中有效的 prompt_token_ids 和 None 以提示。生成的输出将包含令牌 ID。

--revision

要使用的特定模型版本。它可以是分支名称、标签名称或提交 id。如果未指定，则使用默认版本。

--code-revision

用于 Hugging Face Hub 上模型代码的特定修订版本。它可以是分支名称、标签名称或提交 id。如果未指定，则使用默认版本。

--tokenizer-revision

要使用的 Hugging Face tokenizer 的修订。它可以是分支名称、标签名称或提交 id。如果未指定，则使用默认版本。

--tokenizer-mode

令牌程序模式。

auto 使用快速令牌程序（如果可用）。
慢速 使用较慢的令牌程序。
mistral 始终使用 mistral_common 令牌器。
自定义 use -tokenizer 来选择预注册的令牌工具程序。

默认值 ：auto

选项：auto,slow,mistral,custom

--trust-remote-code

信任 Hugging Face 的远程代码。

--allowed-local-media-path

允许 API 请求从服务器文件系统指定的目录中读取本地镜像或视频。这是一个安全风险。应该只在可信环境中启用。

--download-dir

用于下载和加载权重的目录，默认为 Hugging Face 的默认缓存目录。

--load-format

要载入的模型权重的格式。

默认值 ：auto

选项：auto,pt,securetensors,npcache,dummy,tensorizer,sharded_state,gguf,bitsandbytes,mistral,runai_streamer

auto 尝试以 securetensors 格式加载权重，并在 securetensors 格式不可用时回退到 pytorch bin 格式。
pt 以 pytorch bin 格式加载权重。
Securetensors 以 securetensors 格式加载权重。
npcache 以 pytorch 格式加载权重，并存储 numpy 缓存以加快负载。
dummy 使用随机值初始化权重，这主要用于性能分析。
10sorizer 使用 CoreWeave 中的 10sorizer 加载权重。如需更多信息，请参阅 Examples 部分中的 Tensorize AI Inference Server Model script。
runai_streamer 使用 Run:aiModel Streamer 加载 Safetensors weights
位和字节 使用位和字节量来加载权重。

--config-format

要载入的模型配置的格式。

选项：auto、hf、mistral

如果可用，则自动尝试以 hf 格式加载配置（如果不可用），请尝试以 mistral 格式加载。

默认值:ConfigFormat.AUTO

--dtype

模型权重和激活的数据类型。

默认值 ：auto

选项：auto,half,float16,bfloat16,float,float32

auto 将 FP16 精度用于 FP32 和 FP16 模型，并将 BF16 精度用于 BF16 模型。
一半 表示 FP16。建议 AWQ 量化。
float16 与 一半 相同。
Bfloat16，用于精度和范围之间的平衡。
浮点 数简写为 FP32 精度。
float32 用于 FP32 精度。

--kv-cache-dtype

kv 缓存存储的数据类型。如果为 auto，则使用 model 数据类型。CUDA 11.8+ 支持 fp8 (=fp8_e4m3)和 fp8_e5m2。ROCm (AMD GPU)支持 fp8 (=fp8_e4m3)

选项：auto,fp8,fp8_e5m2,fp8_e4m3

默认值 ：auto

--max-model-len

模型上下文长度.如果未指定，则会自动从模型配置派生值。

--guided-decoding-backend

默认用于引导解码(JSON 模式、正则表达式等)的引擎。目前支持 outline -dev/outlines、mlc-ai/xgrammar、noamgat/lm-format-enforcer。可以通过 guided_decoding_backend 参数覆盖每个请求。在后端名称后，可以在以逗号分隔的列表中提供特定于后端的选项。有效的后端和所有可用选项包括：

xgrammar:no-fallback,
xgrammar:disable-any-whitespace,
outline:no-fallback,
lm-format-enforcer:no-fallback

默认值 ：xgrammar

--logits-processor-pattern

可选正则表达式模式指定可以使用 logits_processors extra completion 参数传递的有效日志限定名称。默认为 None，不允许处理器。

--model-impl

要使用的模型的实现。

默认值 ：auto

选项：auto,vllm,转换器

如果已存在，则自动尝试使用 AI Inference 服务器实现，并在没有 AI Inference Server 实施的情况下回退到 Transformers 实施。
vllm 使用 AI Inference Server 模型实现。
转换器 使用 Transformers 模型实现。

--distributed-executor-backend

用于分布式模型 worker 的后端，可以是 ray 或 mp （多处理）。如果 pipeline_parallel_size 和 10 sor_parallel_size 的产品小于或等于可用的 GPU 数量，则 mp 用于在单个主机上保持处理。否则，如果安装了 Ray，则默认为 ray，否则会失败。请注意，TPU 仅支持 Ray 进行分布式推测。

选项：ray,mp,uni,external_launcher

--pipeline-parallel-size, -pp

通过将模型层划分为后续管道阶段来划分模型的节点数量。

默认值: 1

--tensor-parallel-size, -tp

在多个 GPU 中分割模型以共享存储和计算负载。

默认值: 1

--enable-expert-parallel

对于 MoE 层，使用专家并行性而不是十个并行性。

--max-parallel-loading-workers

在多个批处理中按顺序加载模型，以避免使用十个程序并行和大型模型时的 RAM OOM。

--ot-workers-use-nsight

如果指定，使用 nsight 来对 Ray worker 进行性能分析。

--block-size

令牌连续块的令牌块大小.这在 neuron 设备中会被忽略，并设置为 --max-model-len。在 CUDA 设备中，只支持块大小最多 32 个。在 HPU 设备上，块大小默认为 128。

选项： 8、16、32、64、128

--enable-prefix-caching, --no-enable-prefix-caching

启用自动前缀缓存。use --no-enable-prefix-caching 可明确禁用。

--disable-sliding-window

禁用滑动窗口，对窗口大小进行上限。

--use-v2-block-manager

DEPRECATED: 块管理器 v1 已被删除，并且 SelfAttnBlockSpaceManager （块管理器 v2）现在是默认的。将此标志设置为 True 或 False 对 AI Inference 服务器行为没有影响。

--num-lookahead-slots

规范解码所需的实验性调度配置。这由将来被 speculative 配置替代，它会被存在来启用正确的测试，直到它为止。

默认值: 0

--seed

随机 seed 用于操作。

--swap-space

每个 GPU 的 CPU 交换空间大小(GiB)。

默认值 ：4

--cpu-offload-gb

GiB 中每个 GPU 卸载 CPU 的空间。默认值为 0，表示没有卸载。直观地，此参数可以被看成一种增加 GPU 内存大小的虚拟方式。例如，如果您有一个 24 GB GPU 并把它设置为 10，则虚拟您可以将其视为 34 GB GPU。然后，您可以使用 BF16 权重加载 13B 模型，它至少需要 26GB GPU 内存。请注意，这需要快速 CPU-GPU 互连，因为型号在每次模型转发过程中从 CPU 内存加载到 GPU 内存。

默认值: 0

--gpu-memory-utilization

用于模型 executor 的 GPU 内存的比例，范围从 0 到 1。例如，值 0.5 意味着 50% 的 GPU 内存使用率。如果未指定，则使用默认值 0.9.这是一个针对每个实例的限制，仅适用于当前的 AI Inference 服务器实例。如果您有同一 GPU 上运行的另一个 AI Inference 服务器实例，则这无关紧要。例如，如果您在同一 GPU 上运行两个 AI Inference 服务器实例，您可以将每个实例的 GPU 内存使用率设置为 0.5。

默认值 ：0.9

--num-gpu-blocks-override

如果指定，忽略 GPU 分析结果并使用这个数量的 GPU 块。用于测试抢占。

--max-num-batched-tokens

每个迭代的最大批处理令牌数量。在 vLLM 中，批处理是来自活跃序列的所有令牌集合，这些令牌在每个调度程序步骤中共同进入模型。它被衡量为 "tokens per iteration"，而不是每个迭代的 "sequences"。

--max-num-partial-prefills

对于块预先填充，并发部分预先填充的最大数量。默认到 1

默认值: 1

--max-long-partial-prefills

对于块预先填充的预填充，最大提示数量超过同时填充的 --long-prefill-token-threshold。设置小于 --max-num.-partial-prefills 时，可以缩短提示，在一些情况下，在较长的提示前跳过队列，从而提高了延迟。默认为 1。

默认值: 1

--long-prefill-token-threshold

对于块预先填充，如果提示符的时间超过这个数量的令牌，则请求会被视为很长时间。默认为模型上下文长度的 4%。

默认值: 0

--max-num-seqs

每个迭代的最大序列数。

--max-logprobs

返回 logprobs 的最大日志数量在 SamplingParams 中指定。

默认值 ：20

--disable-log-stats

禁用日志记录统计信息。

--quantization, -q

用于量化权重的方法。如果为 None，则首先检查模型配置文件中的 quantization_config 属性。如果是 None，假设模型权重没有量化，并使用 dtype 来确定权重的数据类型。

选项:aqlm,awq,deepspeedfp,tpu_int8,fp8,ptpc_fp8,fbgemm_fp8,modelopt,nvfp4,marlin,gguf,gptq_marlin_24,gptq_mar lin, awq_mar lin, gpt q, compressed-tens ors, bitsand bytes, q q , hq ,experts_int8 , neuron_qu ant, ip ex, qua rk, moe_wna 16,None

--rope-scaling

JSON 格式的 RoPE 扩展配置。例如，{rope_type:'dynamic',factor:2.0}

--rope-theta

RoPE 达州.与 rope_scaling 一起使用。在某些情况下，更改 RoPE 可提高扩展模型的性能。

--hf-overrides

HuggingFace 配置的额外参数。这应该是一个 JSON 字符串，它被解析为字典中。

--enforce.-eager

始终使用 eager-mode PyTorch。如果为 False，在混合中使用 eager 模式和 CUDA 图形获得最大性能和灵活性。

--max-seq-len-to-capture

CUDA 图形涵盖的最大序列长度。当序列的上下文长度大于这个值时，AI Inference 服务器会返回 eager 模式。另外，对于 encoder-decoder 模型，如果编码器输入的序列长度大于这种情况，AI Inference 服务器会返回 eager 模式。

默认值 ：8192

--disable-custom-all-reduce

请参阅 ParallelConfig。

--tokenizer-pool-size

用于异步令牌的令牌程序池的大小。如果为 0，则使用同步令牌。

默认值: 0

--tokenizer-pool-type

用于异步令牌的令牌程序池类型。如果 tokenizer_pool_size 为 0，则忽略。

默认值 ：ray

--tokenizer-pool-extra-config

令牌程序池的额外配置。这应该是一个 JSON 字符串，它被解析为字典中。如果 tokenizer_pool_size. 为 0，则忽略。

--limit-mm-per-prompt

对于每个多模式插件，限制每个提示允许多少输入实例。需要以逗号分隔的项目列表，例如：image=16,video=2 允许每个提示最多 16 个镜像和 2 视频。对于每个模态，默认为 1。

--MM-processor-kwargs

覆盖多模式输入映射和处理，如镜像处理器。例如： {num_crops: 4}。

--disable-mm-preprocessor-cache

如果为 true，则禁用多模式预处理器和映射程序的缓存。（不推荐）

--enable-lora

如果为 True，启用对 LoRA 适配器的处理。

--enable-lora-bias

如果为 True，为 LoRA 适配器启用 bias。

--max-loras

单个批处理中的最大 LoRA 数。

默认值: 1

--max-lora-rank

最大 LoRA 排名.

默认值 ：16

--lora-extra-vocab-size

LoRA 适配器（添加到基本模型词汇）中可以存在的最大额外词汇大小。

默认值 ：256

--lora-dtype

LoRA 的数据类型.如果为 auto，则默认为 base model dtype。

默认值 ：auto

选项：auto,float16,bfloat16

--long-lora-scaling-factors

指定多个扩展因素（可以与基础模型扩展因素不同 - 例如，LoRA）允许多个 LoRA 适配器同时接受这些扩展因素。如果没有指定，则只允许使用基本模型扩展因素培训的适配器。

--max-cpu-loras

在 CPU 内存中存储的最大 LoRA 数。必须大于 max_loras。默认为 max_loras。

--fully-sharded-loras

默认情况下，只有一半的 LoRA 计算使用 10sor parallelism 进行分片。启用该操作会使用完全分片的层。在高序列长度中，最大排名或几十个并行大小可能更快。

--enable-prompt-adapter

如果为 True，启用 PromptAdapters 处理。

--max-prompt-adapters

批处理中 提示器 的最大数量。

默认值: 1

--max-prompt-adapter-token

PromptAdapters 令牌的最大数量

默认值: 0

--device

AI Inference 服务器执行的设备类型。

选项：auto,cuda,neuron,cpu,openvino,tpu,xpu,hpu

默认值 ：auto

--num-scheduler-steps

每个调度程序调用的最大转发步骤数。

默认值: 1

--use-tqdm-on-load, --no-use-tqdm-on-load

在载入模型权重时是否启用或禁用进度条。

默认值 ：True

--multi-step-stream-outputs

如果为 False，则多步骤将在所有步骤的末尾流输出

默认值 ：True

--scheduler-delay-factor

在调度下一个提示前，应用延迟（延迟因素乘以以前的提示延迟）。

默认值 ： 0.0

--enable-chunked-prefill

如果设置，则预先填充请求可根据 max_num_batched_tokens 进行块。

--speculative-model

要在规范解码中使用的草案模型名称。

--speculative-model-quantization

用于量化规范模型权重的方法。如果为 None，AI Inference 服务器首先检查模型配置文件中的 quantization_config 属性。如果是 None，AI Inference 服务器假设模型权重没有量化，并使用 dtype 来确定权重的数据类型。

--num-speculative-tokens

在规范解码中，从草案模型中到示例的规范令牌数量。

--speculative-disable-mqa-scorer

如果设置为 True，则 MQA 分数在推测时被禁用，并返回批处理扩展。

--speculative-draft-tensor-parallel-size, -spec-draft-tp

以规范解码为草案模型的十个并行副本数。

--speculative-max-model-len

草案模型支持的最大序列长度。通过这个长度的序列将跳过推测。

--speculative-disable-by-batch-size

如果 enqueue 请求数大于这个值，则为新的传入的请求禁用规范解码。

--ngram-prompt-lookup-max

在规范解码中，用于 ngram 提示符查询的最大窗口大小。

--ngram-prompt-lookup-min

在规范解码中，用于 ngram 提示符查询的最小窗口大小。

--spec-decoding-acceptance-method

指定在规范解码中草案令牌验证过程中使用的验收方法。支持两种类型的接受例程：

RejectionSampler ：不允许更改接受草案令牌，
TypicalAcceptanceSampler: Configurable，以较低质量的代价实现更高的接受率，反之亦然。
默认值:rejection_sampler
options:rejection_sampler,typical_acceptance_sampler

--typical-acceptance-sampler-posterior-threshold

为令牌的时间线率设置下限阈值。Typical AcceptanceSampler 使用 这个阈值在规范解码期间做出抽样决策。默认值为 0.09。

--typical-acceptance-sampler-posterior-alpha

TypicalAcceptanceSampler 中令牌接受的基于熵阈值的扩展因子。通常默认为方括号 root of -typical-acceptance-sampler-posterior-threshold，如 0.3。

--disable-logprobs-during-spec-decoding

如果设置为 True，则在指定解码过程中不会返回令牌日志探测。如果设置为 False，则根据 SamplingParams 中的设置返回日志概率。如果没有指定，则默认为 True。在规范解码过程中禁用日志概率可减少延迟，方法是在决定接受的令牌时跳过 logprob 计算来降低延迟。

--model-loader-extra-config

模型加载程序的额外配置。这被传递给与所选相关的模型加载程序。load_format.这应该是一个 JSON 字符串，它被解析为字典中。

--ignore.-patterns

加载模型时要忽略的模式。默认为 original/**Thycotic，以避免重复加载 llama 的检查点。

默认值: []

--preemption-mode

如果 重新计算，引擎通过重新计算来执行抢占；如果 交换，引擎通过块交换来执行抢占。

--served-model-name

API 中使用的模型名称。如果提供了多个名称，服务器将响应任何提供的名称。响应的 model 字段中的型号名称是此列表中的名字。如果没有指定，模型名称与 the- models 参数相同。请注意，名称也用于 Prometheus 指标的 model_name 标签内容。如果提供了多个名称，则 metrics 标签将采用第一个名称。

--qlora-adapter-name-or-path

QLoRA 适配器的名称或路径。

--show-hidden-metrics-for-version

启用自指定版本后隐藏的已弃用的 Prometheus 指标。例如，自 v0.7.0 发布以来，如果之前已弃用的指标已被隐藏，您可以在 迁移到新指标时，使用--show-hidden-metrics-for-version=0.7 作为临时转义。指标可能会在即将推出的发行版本中完全删除。

--otlp-traces-endpoint

将 OpenTelemetry 跟踪发送到的目标 URL。

--collects-detailed-traces

有效选择包括 模型、worker、所有。仅在设置了 if- otlp-traces-endpoint 时设置它才有意义。如果设置，服务器会为指定模块收集详细的追踪。这涉及使用可能昂贵的或阻塞操作，因此可能会对性能有影响。

--disable-async-output-proc

禁用 async 输出处理。这可能会导致性能下降。

--scheduling-policy

要使用的调度策略。fcfs （第一个提供第一个服务），以 arrival 的顺序处理请求；默认（根据给定的优先级处理请求，较低值意味着更早的处理；以及 arrival 确定任何绑定的时间）。

默认值 ：fcfs

选项：fcfs、priority

--scheduler-cls

要使用的调度程序类。vllm.core.scheduler.Scheduler 是默认的调度程序。可以直接是一个类，也可以是形成 mod.custom_class 类的路径。

默认值:vllm.core.scheduler.Scheduler

--override-neuron-config

override 或 set neuron 设备配置，例如 {cast_logits_dtype: bloat16}。

--override-pooler-config

覆盖或设置池模型的池方法，例如 {pooling_type:mean,normalize: false}。

--compilation-config, -O

模型的 torch.compile 配置。当它是一个数字(0、1、2、3)时，它被解释为优化级别。注意：级别 0 是没有任何优化的默认级别。级别 1 和 2 仅用于内部测试。3 级是生产环境的建议级别。要指定完整编译配置，请使用 JSON 字符串。按照传统编译器的惯例，使用 -O 时没有空格。-O3 等同于 -O 3。

--kv-transfer-config

分布式 KV 缓存传输的配置。应该是一个 JSON 字符串。

--worker-cls

用于分布式执行的 worker 类。

默认值 ：auto

--worker-extension-cls

worker 上的 worker 扩展类冲突，如果您只想在不更改现有功能的情况下向 worker 类添加新功能，则这很有用。

--generation-config

生成配置的文件夹路径。默认为 auto，生成配置是从模型路径加载的。如果设置为：vllm，没有加载生成配置，使用 AI Inference Server 默认值。如果设置为文件夹路径，则会从指定的文件夹路径加载生成配置。如果在生成配置中指定 max_new_tokens.，它会为所有请求设置服务器端令牌数量。

默认值 ：auto

--override-generation-config

覆盖或设置 JSON 格式的生成配置，例如 {temperature: 0.5}。如果与 -generation-config=auto 一起使用，则覆盖参数与模型中的默认配置合并。如果 generation-config 是 None，则只使用覆盖参数。

--enable-sleep-mode

为引擎启用睡眠模式。仅支持 CUDA 平台。

--calculate-kv-scales

这可启用 k_scale 和 v_scale 的动态计算，当 kv-cache-dtype 为 fp8 时。如果 compute-kv-scales 为 false，则扩展会从模型检查点加载（如果可用）。否则，将默认扩展到 1.0。

--additional-config

JSON 格式指定平台的额外配置。不同的平台可能支持不同的配置。确保配置对您要使用的平台有效。输入格式类似 {<config_key>: <config_value>}

--enable-reasoning

是否为模型启用 reasoning_content。如果启用，模型可以生成原因内容。

.--reasoning-parser

根据您使用的型号，选择原因解析器。这用于将内容解析为 OpenAI API 格式。需要进行- -enable-reasoning。

options:deepseek_r1

--chat-template

传递 Jinja2 模板，用于指定角色、消息和其他特定于聊天的令牌的方式在输入中编码。如需更多信息，请参阅 Chat Template。

--tool-call-parser

选项:deepseek_v3,granite-20b-fc,granite, heitmes , internlm,jamba,llama4_json,llama3_json,mistral,phi4_mini_json,pythonic, 或 name registered in -tool-parser-plugin.

--cuda-graph-sizes

CUDA 图形捕获大小，默认为 512。如果提供了一个值，则捕获列表将遵循以下模式：[ 1, 2, 4] + [i for i in range (8, cuda_graph_sizes + 1, 8)] 提供多个值（例如，1 2 128），然后捕获列表将遵循提供的列表。

默认：512

--data-parallel-address, -dpa

数据并行集群头节点的地址。

--data-parallel-rpc-port, -dpp

数据并行 RPC 通信的端口。

--data-parallel-size, -dp

数据并行组数量。moe 层根据数十个并行大小和数据并行大小的产品进行分片。

默认：1

--data-parallel-size-local, -dpl

此节点上运行的数据并行副本数。

--disable-cascade-attn, --no-disable-cascade-attn

对 V1 禁用级关注。虽然级联的关注不会更改数学正确性，但禁用它对于防止潜在的数字问题非常有用。请注意，即使这被设置为 False，只有 heuristics 告知它很有用时才使用级联注意。

默认：False

--disable-chunked-mm-input, --no-disable-chunked-mm-input

如果设置为 true，并且启用了块的预先填充，请不要部分调度多模式项目。仅在 V1 中使用。这样可确保如果请求具有混合提示（例如，文本令牌 TTTT，后跟镜像令牌三IIIIIIIIIIIIIII），其中只能调度某些镜像令牌（例如，TTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII），该项目被调度为镜像令牌，其中只能调度某些镜像令牌（例如，TTTTTIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII），确保，如果请求具有混合提示（例如，离开三IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII

默认：False

--enable-prompt-embeds, --no-enable-prompt-embeds

如果为 True，启用通过 prompt_embeds 键以输入形式传递文本。请注意，启用这将加倍图形编译所需的时间。

默认：False

--enable-prompt-embeds, --no-enable-prompt-embeds

如果为 True，启用通过 prompt_embeds 键以输入形式传递文本。请注意，启用这将加倍图形编译所需的时间。

默认：False

--guided-decoding-disable-additional-properties, --no-guided-decoding-disable-additional-properties

如果为 True，则指导后端不会在 JSON 模式中使用 additionalProperties。这只支持指导后端，用于更好地保持行为与概述和 xgrammar 保持一致。

默认：False

--guided-decoding-disable-any-whitespace, ::--no-guided-decoding-disable-any-whitespace

如果为 True，则模型不会在引导解码过程中生成任何空格。这只支持 xgrammar 和 guidance 后端。

默认：False

--guided-decoding-disable-fallback, --no-guided-decoding-disable-fallback

如果为 True，vLLM 不会回退到错误的不同后端。

默认：False

--hf-token

用作远程文件的 HTTP bearer 授权的令牌。如果为 True，请使用在运行 huggingface-cli 登录时生成的令牌，存储在 ~/.huggingface 中。

--kv-events-config

事件发布的配置。应该是有效的 JSON 字符串或 JSON 密钥。

--prefix-caching-hash-algo

为前缀缓存设置哈希算法：

选项：内置、sha256

builtin 是 Python 的内置哈希。
SHA256 冲突冲突，但存在某些开销。

默认：builtin

--pt-load-map-location

加载 pytorch 检查点的映射位置，以支持加载检查点只能加载到某些设备上，如 cuda，这等同于 {": "cuda"}。另一种支持的格式是从不同的设备（如 GPU 1 到 GPU 0: {"cuda:1": "cuda:0"} ）映射。请注意，如果从命令行传递，字典中的字符串需要用双引号括起来用于 json 解析。如需了解更多详细信息，请参阅 https://pytorch.org/docs/stable/generated/torch.load.html中的 map_location 原始 doc

默认：cpu

--speculative-config

推测解码的配置。应该是一个 JSON 字符串。

--ssl-keyfile

PEM 格式的 TLS 私钥的位置。

第 2 章 vLLM 服务器参数的完整列表

2.1. vLLM 服务器参数
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 2 章 vLLM 服务器参数的完整列表

2.1. vLLM 服务器参数复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.1. vLLM 服务器参数
复制链接