第 5 章 查看 AI Inference 服务器指标
vLLM 通过 AI Inference Server OpenAI-compatible API 服务器上的 /metrics
端点公开各种指标。
您可以使用 Python 或 Docker 启动服务器。
流程
启动 AI Inference 服务器并加载您的模型,如下例所示。该命令还会公开 OpenAI 兼容 API。
vllm serve unsloth/Llama-3.2-1B-Instruct
$ vllm serve unsloth/Llama-3.2-1B-Instruct
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 查询 OpenAI-compatible API 的
/metrics
端点,以获取服务器的最新指标:curl http://0.0.0.0:8000/metrics
$ curl http://0.0.0.0:8000/metrics
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow