第4章 AI Inference Server のメトリクスの表示
vLLM は、AI Inference Server OpenAI 互換 API サーバーの /metrics
エンドポイントを介してさまざまなメトリクスを公開します。
Python または Docker を使用してサーバーを起動できます。
手順
AI Inference Server サーバーを起動し、次の例に示すようにモデルを読み込みます。このコマンドは、OpenAI 互換 API も公開します。
vllm serve unsloth/Llama-3.2-1B-Instruct
$ vllm serve unsloth/Llama-3.2-1B-Instruct
Copy to Clipboard Copied! Toggle word wrap Toggle overflow OpenAI 互換 API の
/metrics
エンドポイントをクエリーして、サーバーから最新のメトリクスを取得します。curl http://0.0.0.0:8000/metrics
$ curl http://0.0.0.0:8000/metrics
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow