1.3. Red Hat AI Inference Server について


Red Hat AI Inference Server は、オープンソースの vLLM プロジェクト を基盤として、エンタープライズグレードの安定性とセキュリティーを備えた高度な推論機能を提供します。

AI 推論サーバーは、継続的なバッチ処理とテンソル並列処理 (Tensor Parallel) を使用して、レイテンシーを短縮し、スループットを向上させます。連続バッチ処理では、バッチ全体が蓄積されるまで待機するのではなく、モデル要求が到着するとすぐに処理されます。テンソル並列処理により、LLM ワークロードが複数の GPU に分散されます。

推論モデルのコストを削減するために、AI Inference Server はページングされたアテンションを使用します。LLM は、ユーザーとの会話を理解するためにアテンションと呼ばれるメカニズムを使用します。通常、アテンションは大量のメモリーが使用され、その多くは無駄になっています。ページングアテンションは、オペレーティングシステムの仮想メモリーの動作と同様に、LLM にメモリーをプロビジョニングすることで、このメモリーの浪費に対処します。このアプローチではメモリーの消費量が少なくなり、コストが削減されます。

Red Hat AI Inference Server には次の機能があります。

  • ハイブリッドクラウドの推論ランタイム: アクセラレーター、Kubernetes、Linux 環境全体で、選択したモデルを実行します。
  • LLM コンプレッサー: モデルを圧縮して、アクセラレーターとコンピュートの使用を最適化します。高いモデル精度を維持しながらコストを削減します。
  • 最適化されたモデルリポジトリー: NVIDIA アクセラレーターと AMD アクセラレーターの両方をサポートし、推論のデプロイメントにすぐに使用できる最適化されたモデルのコレクションにアクセスできます。
  • Red Hat 製品での使用認定: RHEL AI および OpenShift AI と統合します。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat