1.2. 新しい開発者向け機能


推論エンジンの更新
  • V0 エンジンのクリーンアップ - レガシー CPU/XPU/TPU V0 バックエンドを削除しました。
  • --async-scheduling フラグを使用して実験的な非同期スケジューリングを有効にし、エンジンコアのスケジューリングを GPU ランナーとオーバーラップさせて推論スループットを向上させることができます。
  • キャプチャー前に gc.freeze を呼び出すことで、CUDA グラフの起動時間を短縮しました。
パフォーマンスの向上
  • 同時リクエストのマイクロバッチトークン化を使用することで、リクエストの時間が 48% 短縮されました。
  • 融合された MLA QKV とストライド付きレイヤー正規化を追加しました。
  • Mamba モデルに Triton causal-conv1d を追加しました。
新しい量子化オプション
  • Mixture of Experts モデルの MXFP4 量子化。
  • Mixtral モデルの BNB (Bits and Bytes) サポート。
  • ハードウェア固有の量子化の改善。
拡張モデルサポート
  • EAGLE 投機的デコーディングをサポートする Llama 4。
  • EXAONE 4.0 および Microsoft Phi-4-mini モデルファミリー。
  • Hunyuan V1 Dense および Ling MoE アーキテクチャー。
OpenAI との互換性
  • 新しい OpenAI Responses API 実装を追加しました。
  • 必須の選択肢と $defs を使用したツール呼び出しを追加しました。
依存関係の更新
  • Red Hat AI Inference Server Google TPU コンテナーイメージは、PyTorch 2.9.0 nightly-build 使用します。
  • NVIDIA CUDA は PyTorch 2.7.1 を使用します。
  • AMD ROCm は PyTorch 2.7.0 のままです。
  • FlashInfer ライブラリーが v0.2.8rc1 に更新されました。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat