1.3. Red Hat AI Inference Server について
Red Hat AI Inference Server は、オープンソースの vLLM プロジェクト を基盤として、エンタープライズグレードの安定性とセキュリティーを備えた高度な推論機能を提供します。
AI 推論サーバーは、継続的なバッチ処理とテンソル並列処理 (Tensor Parallel) を使用して、レイテンシーを短縮し、スループットを向上させます。連続バッチ処理では、バッチ全体が蓄積されるまで待機するのではなく、モデル要求が到着するとすぐに処理されます。テンソル並列処理により、LLM ワークロードが複数の GPU に分散されます。
推論モデルのコストを削減するために、AI Inference Server はページングされたアテンションを使用します。LLM は、ユーザーとの会話を理解するためにアテンションと呼ばれるメカニズムを使用します。通常、アテンションは大量のメモリーが使用され、その多くは無駄になっています。ページングアテンションは、オペレーティングシステムの仮想メモリーの動作と同様に、LLM にメモリーをプロビジョニングすることで、このメモリーの浪費に対処します。このアプローチではメモリーの消費量が少なくなり、コストが削減されます。
Red Hat AI Inference Server には次の機能があります。
- ハイブリッドクラウドの推論ランタイム: アクセラレーター、Kubernetes、Linux 環境全体で、選択したモデルを実行します。
- LLM コンプレッサー: モデルを圧縮して、アクセラレーターとコンピュートの使用を最適化します。高いモデル精度を維持しながらコストを削減します。
- 最適化されたモデルリポジトリー: NVIDIA アクセラレーターと AMD アクセラレーターの両方をサポートし、推論のデプロイメントにすぐに使用できる最適化されたモデルのコレクションにアクセスできます。
- Red Hat 製品での使用認定: RHEL AI および OpenShift AI と統合します。