1.2. 新しい開発者向け機能
- 推論エンジンの更新
- V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
-
--async-schedulingフラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。 -
キャプチャー前に
gc.freezeを呼び出すことで、CUDA グラフの起動時間を短縮しました。
- パフォーマンスの向上
- 同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
- 融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
- Mamba モデルに Triton causal-conv1d を追加しました。
- 新しい量子化オプション
- Mixture of Experts モデルの MXFP4 量子化。
- Mixtral モデルの BNB (Bits and Bytes) サポート。
- ハードウェア固有の量子化の改善。
- 拡張モデルサポート
- EAGLE 投機的デコーディングをサポートする Llama 4。
- EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
- Hunyuan V1 Dense および Ling MoE アーキテクチャー。
- OpenAI との互換性
- 新しい OpenAI Responses API 実装を追加しました。
-
必須の選択肢と
$defsを使用したツール呼び出しを追加しました。
- 依存関係の更新
- Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
- NVIDIA CUDA は PyTorch 2.7.1 を使用します。
- AMD ROCm は PyTorch 2.7.0 のままです。
- FlashInfer ライブラリーが v0.2.8rc1 に更新されました。