第2章 バージョン 3.2.0 リリースノート


Red Hat AI Inference Server 3.2.0 リリースは、NVIDIA CUDA および AMD ROCm AI アクセラレーター向けの大規模言語モデル (LLM) を使用して推論を最適化するコンテナーイメージを提供します。コンテナーイメージは、registry.redhat.io から入手できます。

  • registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.0
  • registry.redhat.io/rhaiis/vllm-rocm-rhel9:3.2.0

Red Hat AI Inference Server を使用すると、パフォーマンスの向上、コストの低減、エンタープライズレベルの安定性とセキュリティーを確保しつつ、モデルのサービングと推論が可能です。Red Hat AI Inference Server は、アップストリームのオープンソース vLLM ソフトウェアプロジェクトをベースに構築されています。

このリリースには、vLLM と LLM Compressor の新しいバージョンが含まれています。

Red Hat AI Inference Server でサポートされる製品とハードウェア設定が拡張されました。詳細は サポートされている製品およびハードウェア設定 を参照してください。

Expand
表2.1 AI アクセラレーターのパフォーマンスのハイライト
機能利点サポートされている GPU

Blackwell コンピュート機能 12.0

W8A8/FP8 カーネルと関連チューニングをサポートする NVIDIA RTX PRO 6000 Blackwell Server Edition で動作します。

NVIDIA RTX PRO 6000 Blackwell Server Edition

ROCm の改善

Full‑graph capture for TritonAttention (TritonAttention のフルグラフキャプチャー)、quick All‑Reduce (高速な All-Reduce)、および chunked pre‑fill (チャンク化されたプリフィル)

AMD ROCm

2.1. 新しいモデルが有効に

Red Hat AI Inference Server 3.2.0 は、vLLM v0.9.1 で追加された次のモデルを有効にすることで機能を拡張します。

  • InternVL の LoRa サポート
  • Magistral
  • Minicpm eagle のサポート
  • NemotronH

vLLM v0.9.0 では次のモデルが追加されました。

  • dots1
  • Ernie 4.5
  • FalconH1
  • Gemma‑3
  • GLM‑4.1 V
  • シーケンス分類向けの GPT‑2
  • Granite 4
  • Keye‑VL‑8B‑Preview
  • LlamaGuard4
  • MiMo-7B
  • MiniMax-M1
  • MiniMax-VL-01
  • Ovis 1.6、Ovis 2
  • Phi‑tiny‑MoE‑instruct
  • Qwen 3 Embedding & Reranker
  • Slim-MoE
  • Tarsier 2
  • Tencent HunYuan‑MoE‑V1
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat