第 1 章关键 vLLM 服务器参数

您可以使用 4 个关键参数来配置在硬件上运行的 AI Inference 服务器：

--tensor-parallel-size: 将您的模型分布到主机 GPU 中。
--GPU-memory-utilization ：调整模型权重、激活和 KV 缓存的加速器内存使用率。作为 0.0 到 1.0 的比例测量，默认为 0.9.例如，您可以将此值设置为 0.8，将 AI Inference Server 的 GPU 内存消耗限制为 80%。使用部署稳定的最大值来最大化吞吐量。
--max-model-len: 限制模型的最大上下文长度，以令牌表示。如果模型的默认上下文长度太长，则将其设置为防止内存出现问题。
--max-num-batched-tokens: 将令牌的最大批处理大小限制为每个步骤处理（以令牌表示）。增加这可以提高吞吐量，但可能会影响输出令牌延迟。

例如，要运行 Red Hat AI Inference Server 容器并使用 vLLM 提供模型，请根据需要运行以下命令更改服务器参数：

podman run --rm -it \
--device nvidia.com/gpu=all \
--security-opt=label=disable \
--shm-size=4GB -p 8000:8000 \
--userns=keep-id:uid=1001 \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" \
-v ./rhaiis-cache:/opt/app-root/src/.cache \
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2 \
--model RedHatAI/Llama-3.2-1B-Instruct-FP8 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.8 \
--max-model-len 16384 \
--max-num-batched-tokens 2048 \

$ podman run --rm -it \
--device nvidia.com/gpu=all \
--security-opt=label=disable \
--shm-size=4GB -p 8000:8000 \
--userns=keep-id:uid=1001 \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" \
-v ./rhaiis-cache:/opt/app-root/src/.cache \
registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2 \
--model RedHatAI/Llama-3.2-1B-Instruct-FP8 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.8 \
--max-model-len 16384 \
--max-num-batched-tokens 2048 \

Copy to Clipboard

Toggle word wrap

返回顶部

第 1 章关键 vLLM 服务器参数

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 1 章 关键 vLLM 服务器参数

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 1 章关键 vLLM 服务器参数