第1章 AI Inference Server について


AI Inference Server は、アップストリームのオープンソースソフトウェアを基盤として、エンタープライズグレードの安定性とセキュリティーを提供します。AI Inference Server は、最先端の推論機能を提供するアップストリーム vLLM プロジェクト を活用します。

たとえば、AI Inference Server は、完全なバッチが蓄積されるまで待つのではなく、継続的なバッチ処理を使用して、リクエストが到着するとすぐに処理します。テンソル並列処理により、LLM ワークロードが複数の GPU に分散されます。これらの機能により、レイテンシーが短縮され、スループットが向上します。

推論モデルのコストを削減するために、AI Inference Server はページングされたアテンションを使用します。LLM は、ユーザーとの会話を理解するためにアテンションと呼ばれるメカニズムを使用します。通常、アテンションは大量のメモリーが使用され、その多くは無駄になっています。ページングアテンションは、オペレーティングシステムの仮想メモリーの動作と同様に、LLM にメモリーをプロビジョニングすることで、このメモリーの浪費に対処します。このアプローチではメモリーの消費量が少なくなり、コストが削減されます。

AI Inference Server によるコスト削減とパフォーマンス向上を確認するには、次の手順を実行します。

  1. AI Inference Server を使用したサービングおよび推論
  2. 主要なメトリクスを使用した Red Hat AI Inference Server の利点の検証
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat