第 2 章 vLLM 服务器使用
vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
$ vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
- chat
- 通过运行的 API 服务器生成 chat 完成。
- complete
- 根据给定的 API 服务器提示生成文本完成。
- serve
- 启动 vLLM OpenAI 兼容 API 服务器。
- bench
- vLLM bench 子命令.
- collect-env
- 开始收集环境信息。
- run-batch
- 运行批处理提示并将结果写入文件。
2.1. vllm chat 参数 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
使用正在运行的 API 服务器生成 chat 完成。
vllm chat [options]
$ vllm chat [options]
- --api-key API_KEY
OpenAI API 密钥。如果提供,此 API 密钥会覆盖环境变量中设置的 API 密钥。
默认 : None
- --model-name MODEL_NAME
提示完成中使用的模型名称,默认为列表模型 API 调用中的第一个模型。
默认 : None
- --system-prompt SYSTEM_PROMPT
要添加到 chat 模板的系统提示,用于支持系统提示的型号。
默认 : None
- --url URL
正在运行的 OpenAI 兼容 RESTful API 服务器的 URL
Default:
http://localhost:8000/v1- -q MESSAGE, --quick MESSAGE
以
MESSAGE身份发送单个提示,并打印响应,然后退出。默认 : None