第2章 新機能および機能拡張


  • このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

    • vLLM v0.9.0.1

      • vLLM v0.8.4 以降、900 件以上のアップストリームコミット。新しい機能には、FP8 融合型 Mixture of Experts (MoE) カーネル、14 個の新しいモデルのサポート、/server_info エンドポイント、動的 LoRA ホットリロードが含まれます。
    • LLM Compressor v0.5.1
  • Red Hat AI Inference Server コンテナーベースは、PyTorch 2.7 と Triton 3.2 に構築されるようになりました。
  • Red Hat AI Inference Server は、FIPS 準拠の Red Hat Enterprise Linux (RHEL) ホストで完全にサポートされるようになりました。
  • Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は、サポートされている製品およびハードウェア設定 を参照してください。
Expand
表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能利点サポートされている GPU

Blackwell サポート

FP8 カーネルと完全な CUDA Graph アクセラレーションを備えた NVIDIA B200 コンピュート機能 10.0 GPU で実行

NVIDIA Blackwell

ROCm 上の FP8 KV キャッシュ

精度を損なうことなくコンテキストウィンドウが約 2 倍に拡大

すべての AMD GPU

Skinny GEMM

推論のレイテンシーが約 10% 低下

AMD MI300X

フル CUDA Graph モード

小規模モデルの平均出力トークン時間 (TPOT) が 6-8% 改善されました。

NVIDIA A100 および H100

自動 FP16 フォールバック

NVIDIA T4 GPU など、手動フラグのない Ampere 以前のカードでも安定して動作します。

古い NVIDIA GPU

2.1. 新しいモデルが有効に

Red Hat AI Inference Server 3.1 では、次のモデルを有効にすることで機能が拡張されます。

  • vLLM バージョン 0.8.5 で追加:

    • Qwen3 および Qwen3MoE
    • ModernBERT
    • Granite Speech
    • PLaMo2
    • Kimi-VL
    • Snowflake Arctic Embed
  • vLLM バージョン 0.9.0 で追加:

    • MiMo-7B
    • MiniMax-VL-01
    • Ovis 1.6、Ovis 2
    • Granite 4
    • FalconH1
    • LlamaGuard4
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat