第4章 AI Inference Server のメトリクスの表示

vLLM は、AI Inference Server OpenAI 互換 API サーバーの /metrics エンドポイントを介してさまざまなメトリクスを公開します。

Python または Docker を使用してサーバーを起動できます。

手順

AI Inference Server サーバーを起動し、次の例に示すようにモデルを読み込みます。このコマンドは、OpenAI 互換 API も公開します。
```
vllm serve unsloth/Llama-3.2-1B-Instruct
```
```
$ vllm serve unsloth/Llama-3.2-1B-Instruct
```
Copy to Clipboard Toggle word wrap

OpenAI 互換 API の /metrics エンドポイントをクエリーして、サーバーから最新のメトリクスを取得します。

curl http://0.0.0.0:8000/metrics

$ curl http://0.0.0.0:8000/metrics

Copy to Clipboard

Toggle word wrap

出力例

HELP vllm:iteration_tokens_total Histogram of number of tokens per engine_step.
TYPE vllm:iteration_tokens_total histogram

# HELP vllm:iteration_tokens_total Histogram of number of tokens per engine_step.
# TYPE vllm:iteration_tokens_total histogram
vllm:iteration_tokens_total_sum{model_name="unsloth/Llama-3.2-1B-Instruct"} 0.0
vllm:iteration_tokens_total_bucket{le="1.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="8.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="16.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="32.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="64.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="128.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="256.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
vllm:iteration_tokens_total_bucket{le="512.0",model_name="unsloth/Llama-3.2-1B-Instruct"} 3.0
#...

Copy to Clipboard

Toggle word wrap

第4章 AI Inference Server のメトリクスの表示

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links