第2章 新機能および機能拡張
このセクションでは、Red Hat OpenShift AI の新機能と機能拡張を説明します。
2.1. 新機能
- AMD GPU のサポート
- AMD ROCm ワークベンチイメージは、AMD グラフィックスプロセッシングユニット (GPU) Operator のサポートを追加し、コンピュートを集中的に使用するアクティビティーの処理パフォーマンスを大幅に向上させます。この機能により、AI ワークロードと幅広いモデルをサポートするドライバー、開発ツール、API にアクセスできるようになります。さらに、AMD ROCm ワークベンチイメージには、TensorFlow や PyTorch などの AI フレームワークをサポートする機械学習ライブラリーが含まれています。この機能では、AMD GPU を使用したサービングおよびトレーニング、またはチューニングのユースケースを調査するために使用できるイメージへのアクセスも提供されます。
- NVIDIA NIM モデル提供プラットフォームのサポート
NVIDIA NIM モデル提供プラットフォームは、OpenShift AI で NVIDIA NIM 推論サービスを使用した NVIDIA 最適化モデルのデプロイのサポートが追加されました。NVIDIA AI Enterprise の一部である NVIDIA NIM は、クラウド、データセンター、ワークステーション全体にわたる高性能 AI モデル推論の安全で信頼性の高いデプロイメントを目的として設計された、使いやすいマイクロサービスのセットです。NVIDIA NIM は、オープンソースコミュニティーや NVIDIA AI Foundation モデルを含む幅広い AI モデルをサポートしています。業界標準の API を活用して、オンプレミスでもクラウドでもシームレスでスケーラブルな AI 推論を実現します。
詳細は、NVIDIA NIM モデルサービングプラットフォームについて を参照してください。
- Intel Gaudi 3 アクセラレーターのサポート
Intel Gaudi 3 アクセラレーターのサポートが利用可能になりました。vLLM ServingRuntime with Gaudi accelerators support for KServe は、Intel Gaudi アクセラレーターをサポートする、高スループットでメモリー効率に優れた推論およびサービングランタイムです。
詳細は、Intel Gaudi accelerators を参照してください。
- サービスとしての言語モデル評価
新しいオーケストレーターにより、セキュアでスケーラブルなサービスとしての言語モデル評価 (LM-Eval-aaS) のデプロイが可能になります。このサービスは、オープンソースツールを活用して、lm-evaluation-harness を Unitxt タスクカードと統合し、業界標準およびプロプライエタリーのベンチマークを使用して効率的かつセキュアなモデル評価を実現します。
LM-Eval-aaS には次の主な機能が含まれています。
- オーケストレーターのデプロイメントアセット: LM-Eval-aaS オーケストレーターをデプロイおよび管理するための初期アセット。
- タスクカードの統合: カスタムの前処理および評価ワークフローを定義するための Unitxt タスクカードのサポート。
- ベンチマークのサポート: 標準およびプロプライエタリーの評価ベンチマークとの互換性。
詳細は、大規模言語モデルの評価 を参照してください。
- カスタマイズ可能なサービングランタイムのパラメーター
- モデルを提供するときに、パラメーター値と環境変数をランタイムに渡すことができるようになりました。ランタイムパラメーターのカスタマイズは、vLLM を含む GenAI ユースケースでは特に重要です。
- 量子化されたモデルのデプロイのサポート
vLLM ServingRuntime for KServe を使用して、Marlin カーネル用に量子化されたモデルをデプロイできます。モデルが Marlin 用に量子化されている場合、vLLM は基盤となるハードウェアに基づいて Marlin カーネルを自動的に使用します。その他の量子化モデルの場合は、
--quantization=marlin
カスタムパラメーターを使用できます。サポートされているハードウェアの詳細は、vLLM Web サイトの Supported Hardware for Quantization Kernels を参照してください。
- code-server ワークベンチイメージ
これまでテクノロジープレビュー機能として提供されていた Red Hat OpenShift AI に含まれる code-server ワークベンチイメージが、一般提供になりました。詳細は、code-server での作業 を参照してください。
code-server ベンチイメージを使用すると、さまざまなエクステンションを使用して新しい言語、テーマ、デバッガーを追加し、追加のサービスに接続することで、ワークベンチ環境をカスタマイズできます。構文の強調表示、自動インデント、括弧の一致により、データサイエンス作業の効率も向上します。
注記Elyra ベースのパイプラインは、code-server ワークベンチイメージでは使用できません。