第3章 テクノロジープレビュー機能
このセクションでは、Red Hat OpenShift AI 2.25 のテクノロジープレビュー機能を説明します。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
- x86 プラットフォームにおける IBM Spyre AI Accelerator のモデルサービングがサポートされるようになりました
- IBM Spyre AI Accelerator によるモデルサービングが、x86 プラットフォームのテクノロジープレビュー機能として利用できるようになりました。IBM Spyre Operator はインストールを自動化し、デバイスプラグイン、セカンダリースケジューラー、および監視を統合します。詳細は、IBM Spyre Operator カタログエントリー を参照してください。
- Distributed Inference with llm-d
- llm-d を使用した分散推論は現在、テクノロジープレビュー機能として利用できます。Distributed Inference with llm-d は、マルチモデルサービング、インテリジェントな推論スケジューリング、分散サービングをサポートし、GenAI モデルでの GPU 使用率を向上させます。詳細は、llm-d による Distributed Inference を使用したモデルのデプロイ を参照してください。
- OpenShift AI 上の Llama Stack を使用して生成 AI アプリケーションをビルドする
このリリースでは、Llama Stack テクノロジープレビュー機能により、次世代の生成 AI アプリケーションを構築するための Retrieval-Augmented Generation (RAG) とエージェントワークフローが可能になります。この機能は、リモート推論、組み込みのエンベディング、ベクトルデータベース操作をサポートしています。また、安全性を担当する TrustyAI のプロバイダーや、評価を担当する Trusty AI の LM-Eval プロバイダーなどのプロバイダーと統合します。
このプレビューには、Llama Stack Operator を有効にし、RAG ツールを操作し、PDF の取り込みとキーワード検索機能を自動化してドキュメントの検出を強化するためのツール、コンポーネント、ガイダンスが含まれています。
- 集中型プラットフォームの可観測性
メトリクス、トレース、組み込みアラートなどの集中型プラットフォームの可観測性は、テクノロジープレビュー機能として利用できます。このソリューションは、OpenShift AI 専用の事前設定済みの可観測性スタックを導入し、クラスター管理者が次のアクションを実行できるようにします。
- OpenShift AI コンポーネントとワークロードのプラットフォームメトリクス (Prometheus) と分散トレース (Tempo) を表示します。
- 重要なコンポーネントの健全性とパフォーマンスの問題をカバーする組み込みアラート (alertmanager) のセットを管理します。
DataScienceClusterInitialization(DSCI) カスタムリソースを編集して、プラットフォームとワークロードのメトリクスを外部のサードパーティーの可観測性ツールにエクスポートします。この機能は、Cluster Observability Operator、Red Hat build of OpenTelemetry、および Tempo Operator と統合することで有効にできます。詳細は、監視と可観測性を参照してください。詳細は、可観測性の管理 を参照してください。
- Llama Stack Distribution バージョン 0.2.17 のサポート
Llama Stack Distribution には、テクノロジープレビューとして Llama-stack バージョン 0.2.17 が含まれるようになりました。この機能により、次のようなさまざまな機能が実現します。
- モデルプロバイダー: vLLM などのセルフホストプロバイダーが自動的に登録されるようになったため、INFERENCE_MODEL 変数を手動で設定する必要がなくなりました。
- インフラストラクチャーとバックエンド: OpenAI 推論が改善され、Vector Store API のサポートが追加されました。
- エラー処理: エラーが標準化され、ライブラリークライアントの初期化が改善されました。
- アクセス制御: Vector Store および File API でアクセス制御が強制的に適用され、テレメトリー読み取り API はユーザーロールで制御されるようになりました。
- バグの修正。
- IBM Power アクセラレーション Triton Inference Server のサポート
Python と ONNX バックエンドを使用して、Triton Inference Server (CPU のみ) の Power アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Power アーキテクチャー上のカスタムモデルサービングランタイムとしてデプロイできます。
詳細は、Triton Inference Server image を参照してください。
- IBM Z アクセラレーション Triton Inference Server のサポート
ONNX-MLIR、Snap ML (C++)、PyTorch などの複数のバックエンドオプションを使用して、Triton Inference Server (Telum I/Telum II) の Z アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Z アーキテクチャー上でカスタムサービングランタイムとしてデプロイできます。
詳細は、IBM Z accelerated Triton Inference Server を参照してください。
- Kubernetes Event-driven Autoscaling (KEDA) のサポート
OpenShift AI は、KServe RawDeployment モードで Kubernetes Event-driven Autoscaling (KEDA) をサポートするようになりました。このテクノロジープレビュー機能により、推論サービスのメトリクススベースの自動スケーリングが可能になり、アクセラレーターリソースの管理の効率化、運用コストの削減、推論サービスのパフォーマンス向上を実現します。
KServe RawDeployment モードで推論サービスの自動スケーリングをセットアップするには、KEDA に基づく OpenShift Custom Metrics Autoscaler (CMA) をインストールして設定する必要があります。
この機能の詳細は、メトリクスベースの自動スケーリングの設定 を参照してください。
- LM-Eval モデル評価 UI 機能
- TrustyAI は、使いやすい LM-Eval モデル評価の UI を、テクノロジープレビューとして提供するようになりました。この機能を使用すると、特定のモデルの評価パラメーターを入力し、評価結果ページを返すことすべてを UI から行うことができます。
- LlamaStack で Guardrails Orchestrator を使用する
組み込みの検出コンポーネントを使用して、テクノロジープレビュー機能として Llama Stack を備えた TrustyAI の Guardrails Orchestrator ツールを使用して検出を実行できるようになりました。この機能を使用するには、TrustyAI が有効になっていること、FMS Orchestrator とディテクターが設定されていること、および必要に応じて完全な互換性を確保するために KServe RawDeployment モードが使用されていることを確認してください。手動でのセットアップは必要ありません。その後、Red Hat OpenShift AI Operator の
DataScienceClusterカスタムリソースで、spec.llamastackoperator.managementStateフィールドをManagedに設定します。詳細は、GitHub の Trusty AI FMS Provider を参照してください。
- 新しい Feature Store コンポーネント
OpenShift AI で Feature Store を設定可能なコンポーネントとしてインストールおよび管理できるようになりました。オープンソースの Feast プロジェクトをベースにした Feature Store は、ML モデルとデータ間の橋渡しとして機能し、ML ライフサイクル全体にわたって一貫性のあるスケーラブルな機能管理を可能にします。
このテクノロジープレビューリリースでは、次の機能が導入されています。
- 機能を一貫して再利用できるようにする集中型機能リポジトリー
- ML モデルの特徴量を定義、管理、取得するためのプログラムおよびコマンドライン操作用の Python SDK および CLI
- 機能の定義と管理
- 幅広いデータソースのサポート
- 特徴量の具体化によるデータ取り込み
- オンラインモデル推論とオフラインモデルトレーニングの両方のための特徴量検索
- ロールベースのアクセス制御 (RBAC) による機密機能の保護
- サードパーティーのデータおよびコンピュートプロバイダーとの拡張性と統合
- 企業の ML 要件を満たすスケーラビリティー
- 検索可能な特徴量カタログ
可観測性を高めるデータ系統追跡
設定の詳細は、Feature Store の設定 を参照してください。
- IBM Power および IBM Z アーキテクチャーのサポート
- IBM Power (ppc64le) および IBM Z (s390x) アーキテクチャーがテクノロジープレビュー機能としてサポートされるようになりました。現在、これらのアーキテクチャーでは、KServe RawDeployment モードでのみモデルをデプロイできます。
- IBM Power および IBM Z アーキテクチャーでの vLLM のサポート
- vLLM ランタイムテンプレートは、テクノロジープレビューとして IBM Power および IBM Z アーキテクチャーで使用できます。
- ノードセレクターを使用して、Red Hat OpenShift AI ダッシュボードの特定ワーカーノードに対するワークベンチのターゲットデプロイメントを有効にします。
ハードウェアプロファイルがテクノロジープレビューとして利用できるようになりました。ハードウェアプロファイル機能を使用すると、ユーザーはワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにすることができます。これにより、ユーザーは特定のアクセラレータータイプまたは CPU のみのノードをターゲットにすることができます。
この機能は、現在のアクセラレータープロファイル機能とコンテナーサイズセレクターフィールドに代わるもので、さまざまなハードウェア設定を対象とするより幅広い機能セットを提供します。アクセラレータープロファイル、taint、および toleration は、ワークロードをハードウェアにマッチングする機能を提供しますが、特に一部のノードに適切な taint がない場合、ワークロードが特定のノードに配置されるかどうかは保証されません。
ハードウェアプロファイル機能は、アクセラレーターと CPU のみの設定の両方とノードセレクターをサポートします。これにより、特定のワーカーノードのターゲット設定機能が強化されます。管理者は設定メニューでハードウェアプロファイルを設定できます。該当する場合、ユーザーはワークベンチ、モデルサービング、およびデータサイエンスパイプラインの UI を使用して、有効なプロファイルを選択できます。
- RStudio Server ワークベンチイメージ
RStudio Server ワークベンチイメージを使用すると、R の統合開発環境である RStudio IDE にアクセスできます。R プログラミング言語は、データ分析と予測をサポートする統計コンピューティングとグラフィックスに使用されます。
RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、
BuildConfigをトリガーしてイメージをビルドし、次にrstudio-rhel9イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。重要免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
- CUDA - RStudio Server ワークベンチイメージ
CUDA - RStudio Server ワークベンチイメージを使用すると、RStudio IDE および NVIDIA CUDA Toolkit にアクセスできます。RStudio IDE は、統計コンピューティングおよびグラフィックス用の R プログラミング言語の統合開発環境です。NVIDIA CUDA Toolkit を使用すると、GPU により高速化されたライブラリーと最適化ツールを使用して作業を強化できます。
CUDA - RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、
BuildConfigをトリガーしてビルドして、次にrstudio-rhel9イメージストリームを編集して OpenShift AI UI で有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。重要免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
CUDA - RStudio Server ワークベンチイメージには、NVIDIA CUDA テクノロジーが含まれています。CUDA のライセンス情報は、CUDA Toolkit のドキュメントで入手できます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
- 非常に大規模なモデルのマルチノードデプロイメントのサポート
- シングルモデルサービングランタイムの使用時に、複数のグラフィカルプロセッシングユニット (GPU) ノードを介してモデルを提供することが、テクノロジープレビュー機能として利用できるようになりました。大規模言語モデル (LLM) などの大規模なモデルをデプロイする際の効率を向上させるには、複数の GPU ノードにモデルをデプロイします。詳細は、複数の GPU ノードを使用したモデルのデプロイ を参照してください。