2.2. 新しい開発者向け機能
- /server_info REST エンドポイント
- 可観測性と自動化のためにモデル、KV キャッシュ、デバイス設定をクエリーします。
- 動的 LoRA ホットリロード
- ダウンタイムなしで URL から微調整されたアダプターを交換します。
- vllm-bench CLI
- 即時のレイテンシーとスループットのサイズ設定を可能にする "コンテナー内出荷ツール"。
- より高速な段階的なトークン化解除
- CUDA および ROCm GPU では、ストリーミング応答が 2 倍の速さで開始します。
- torch.compile キャッシュ
- キャッシュされた最初のプロンプトのコンパイルにより、ホストの再起動時のウォームアップ時間が短縮されます。