1.2. 新しい開発者向け機能

推論エンジンの更新

V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
--async-scheduling フラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。
キャプチャー前に gc.freeze を呼び出すことで、CUDA グラフの起動時間を短縮しました。

パフォーマンスの向上

同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
Mamba モデルに Triton causal-conv1d を追加しました。

新しい量子化オプション

Mixture of Experts モデルの MXFP4 量子化。
Mixtral モデルの BNB (Bits and Bytes) サポート。
ハードウェア固有の量子化の改善。

拡張モデルサポート

EAGLE 投機的デコーディングをサポートする Llama 4。
EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
Hunyuan V1 Dense および Ling MoE アーキテクチャー。

OpenAI との互換性

新しい OpenAI Responses API 実装を追加しました。
必須の選択肢と $defs を使用したツール呼び出しを追加しました。

依存関係の更新

Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
NVIDIA CUDA は PyTorch 2.7.1 を使用します。
AMD ROCm は PyTorch 2.7.0 のままです。
FlashInfer ライブラリーが v0.2.8rc1 に更新されました。

トップに戻る

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat