第2章 vLLM サーバーの使用
vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
$ vllm [-h] [-v] {chat,complete,serve,bench,collect-env,run-batch}
- chat
- 実行中の API サーバーを介してチャット補完を生成します。
- complete
- 実行中の API サーバーを介して、指定されたプロンプトに基づいて、テキスト補完を生成します。
- serve
- vLLM OpenAI Compatible API サーバーを起動します。
- bench
- vLLM bench サブコマンド。
- collect-env
- 環境情報の収集を開始します。
- run-batch
- バッチプロンプトを実行し、結果をファイルに書き込みます。
2.1. vllm chat の引数 リンクのコピーリンクがクリップボードにコピーされました!
実行中の API サーバーでチャット補完を生成します。
vllm chat [options]
$ vllm chat [options]
- --api-key API_KEY
OpenAI API キー。指定されている場合、この API キーは環境変数に設定された API キーをオーバーライドします。
デフォルト: None
- --model-name MODEL_NAME
プロンプト補完で使用されるモデル名。デフォルトでは、リストモデル API 呼び出しの最初のモデルに設定されます。
デフォルト: None
- --system-prompt SYSTEM_PROMPT
チャットテンプレートに追加するシステムプロンプト。システムプロンプトをサポートするモデルに使用されます。
デフォルト: None
- --url URL
実行中の OpenAI 互換 RESTful API サーバーの URL
デフォルト:
http://localhost:8000/v1
- -q MESSAGE, --quick MESSAGE
MESSAGE
として単一のプロンプトを送信し、応答を出力してから終了します。デフォルト: None