第3章テクノロジープレビュー機能

重要

このセクションでは、Red Hat OpenShift AI 2.25 のテクノロジープレビュー機能を説明します。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲を参照してください。

x86 プラットフォームにおける IBM Spyre AI Accelerator のモデルサービングがサポートされるようになりました: IBM Spyre AI Accelerator によるモデルサービングが、x86 プラットフォームのテクノロジープレビュー機能として利用できるようになりました。IBM Spyre Operator はインストールを自動化し、デバイスプラグイン、セカンダリースケジューラー、および監視を統合します。詳細は、IBM Spyre Operator カタログエントリーを参照してください。

Distributed Inference with llm-d: llm-d を使用した分散推論は現在、テクノロジープレビュー機能として利用できます。Distributed Inference with llm-d は、マルチモデルサービング、インテリジェントな推論スケジューリング、分散サービングをサポートし、GenAI モデルでの GPU 使用率を向上させます。詳細は、llm-d による Distributed Inference を使用したモデルのデプロイを参照してください。

OpenShift AI 上の Llama Stack を使用して生成 AI アプリケーションをビルドする

このリリースでは、Llama Stack テクノロジープレビュー機能により、次世代の生成 AI アプリケーションを構築するための Retrieval-Augmented Generation (RAG) とエージェントワークフローが可能になります。この機能は、リモート推論、組み込みのエンベディング、ベクトルデータベース操作をサポートしています。また、安全性を担当する TrustyAI のプロバイダーや、評価を担当する Trusty AI の LM-Eval プロバイダーなどのプロバイダーと統合します。

このプレビューには、Llama Stack Operator を有効にし、RAG ツールを操作し、PDF の取り込みとキーワード検索機能を自動化してドキュメントの検出を強化するためのツール、コンポーネント、ガイダンスが含まれています。

集中型プラットフォームの可観測性

メトリクス、トレース、組み込みアラートなどの集中型プラットフォームの可観測性は、テクノロジープレビュー機能として利用できます。このソリューションは、OpenShift AI 専用の事前設定済みの可観測性スタックを導入し、クラスター管理者が次のアクションを実行できるようにします。

OpenShift AI コンポーネントとワークロードのプラットフォームメトリクス (Prometheus) と分散トレース (Tempo) を表示します。
重要なコンポーネントの健全性とパフォーマンスの問題をカバーする組み込みアラート (alertmanager) のセットを管理します。
DataScienceClusterInitialization (DSCI) カスタムリソースを編集して、プラットフォームとワークロードのメトリクスを外部のサードパーティーの可観測性ツールにエクスポートします。
この機能は、Cluster Observability Operator、Red Hat build of OpenTelemetry、および Tempo Operator と統合することで有効にできます。詳細は、監視と可観測性を参照してください。詳細は、可観測性の管理を参照してください。

Llama Stack Distribution バージョン 0.2.17 のサポート

Llama Stack Distribution には、テクノロジープレビューとして Llama-stack バージョン 0.2.17 が含まれるようになりました。この機能により、次のようなさまざまな機能が実現します。

モデルプロバイダー: vLLM などのセルフホストプロバイダーが自動的に登録されるようになったため、INFERENCE_MODEL 変数を手動で設定する必要がなくなりました。
インフラストラクチャーとバックエンド: OpenAI 推論が改善され、Vector Store API のサポートが追加されました。
エラー処理: エラーが標準化され、ライブラリークライアントの初期化が改善されました。
アクセス制御: Vector Store および File API でアクセス制御が強制的に適用され、テレメトリー読み取り API はユーザーロールで制御されるようになりました。
バグの修正。

IBM Power アクセラレーション Triton Inference Server のサポート

Python と ONNX バックエンドを使用して、Triton Inference Server (CPU のみ) の Power アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Power アーキテクチャー上のカスタムモデルサービングランタイムとしてデプロイできます。

詳細は、Triton Inference Server image を参照してください。

IBM Z アクセラレーション Triton Inference Server のサポート

ONNX-MLIR、Snap ML (C++)、PyTorch などの複数のバックエンドオプションを使用して、Triton Inference Server (Telum I/Telum II) の Z アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Z アーキテクチャー上でカスタムサービングランタイムとしてデプロイできます。

詳細は、IBM Z accelerated Triton Inference Server を参照してください。

Kubernetes Event-driven Autoscaling (KEDA) のサポート

OpenShift AI は、KServe RawDeployment モードで Kubernetes Event-driven Autoscaling (KEDA) をサポートするようになりました。このテクノロジープレビュー機能により、推論サービスのメトリクススベースの自動スケーリングが可能になり、アクセラレーターリソースの管理の効率化、運用コストの削減、推論サービスのパフォーマンス向上を実現します。

KServe RawDeployment モードで推論サービスの自動スケーリングをセットアップするには、KEDA に基づく OpenShift Custom Metrics Autoscaler (CMA) をインストールして設定する必要があります。

この機能の詳細は、メトリクスベースの自動スケーリングの設定を参照してください。

LM-Eval モデル評価 UI 機能: TrustyAI は、使いやすい LM-Eval モデル評価の UI を、テクノロジープレビューとして提供するようになりました。この機能を使用すると、特定のモデルの評価パラメーターを入力し、評価結果ページを返すことすべてを UI から行うことができます。

LlamaStack で Guardrails Orchestrator を使用する

組み込みの検出コンポーネントを使用して、テクノロジープレビュー機能として Llama Stack を備えた TrustyAI の Guardrails Orchestrator ツールを使用して検出を実行できるようになりました。この機能を使用するには、TrustyAI が有効になっていること、FMS Orchestrator とディテクターが設定されていること、および必要に応じて完全な互換性を確保するために KServe RawDeployment モードが使用されていることを確認してください。手動でのセットアップは必要ありません。その後、Red Hat OpenShift AI Operator の DataScienceCluster カスタムリソースで、spec.llamastackoperator.managementState フィールドを Managed に設定します。

詳細は、GitHub の Trusty AI FMS Provider を参照してください。

新しい Feature Store コンポーネント

OpenShift AI で Feature Store を設定可能なコンポーネントとしてインストールおよび管理できるようになりました。オープンソースの Feast プロジェクトをベースにした Feature Store は、ML モデルとデータ間の橋渡しとして機能し、ML ライフサイクル全体にわたって一貫性のあるスケーラブルな機能管理を可能にします。

このテクノロジープレビューリリースでは、次の機能が導入されています。

機能を一貫して再利用できるようにする集中型機能リポジトリー
ML モデルの特徴量を定義、管理、取得するためのプログラムおよびコマンドライン操作用の Python SDK および CLI
機能の定義と管理
幅広いデータソースのサポート
特徴量の具体化によるデータ取り込み
オンラインモデル推論とオフラインモデルトレーニングの両方のための特徴量検索
ロールベースのアクセス制御 (RBAC) による機密機能の保護
サードパーティーのデータおよびコンピュートプロバイダーとの拡張性と統合
企業の ML 要件を満たすスケーラビリティー
検索可能な特徴量カタログ
可観測性を高めるデータ系統追跡
設定の詳細は、Feature Store の設定を参照してください。

IBM Power および IBM Z アーキテクチャーのサポート: IBM Power (ppc64le) および IBM Z (s390x) アーキテクチャーがテクノロジープレビュー機能としてサポートされるようになりました。現在、これらのアーキテクチャーでは、KServe RawDeployment モードでのみモデルをデプロイできます。

IBM Power および IBM Z アーキテクチャーでの vLLM のサポート: vLLM ランタイムテンプレートは、テクノロジープレビューとして IBM Power および IBM Z アーキテクチャーで使用できます。

ノードセレクターを使用して、Red Hat OpenShift AI ダッシュボードの特定ワーカーノードに対するワークベンチのターゲットデプロイメントを有効にします。

ハードウェアプロファイルがテクノロジープレビューとして利用できるようになりました。ハードウェアプロファイル機能を使用すると、ユーザーはワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにすることができます。これにより、ユーザーは特定のアクセラレータータイプまたは CPU のみのノードをターゲットにすることができます。

この機能は、現在のアクセラレータープロファイル機能とコンテナーサイズセレクターフィールドに代わるもので、さまざまなハードウェア設定を対象とするより幅広い機能セットを提供します。アクセラレータープロファイル、taint、および toleration は、ワークロードをハードウェアにマッチングする機能を提供しますが、特に一部のノードに適切な taint がない場合、ワークロードが特定のノードに配置されるかどうかは保証されません。

ハードウェアプロファイル機能は、アクセラレーターと CPU のみの設定の両方とノードセレクターをサポートします。これにより、特定のワーカーノードのターゲット設定機能が強化されます。管理者は設定メニューでハードウェアプロファイルを設定できます。該当する場合、ユーザーはワークベンチ、モデルサービング、およびデータサイエンスパイプラインの UI を使用して、有効なプロファイルを選択できます。

RStudio Server ワークベンチイメージ

RStudio Server ワークベンチイメージを使用すると、R の統合開発環境である RStudio IDE にアクセスできます。R プログラミング言語は、データ分析と予測をサポートする統計コンピューティングとグラフィックスに使用されます。

RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドし、次に rstudio-rhel9 イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルドを参照してください。

重要

免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

CUDA - RStudio Server ワークベンチイメージ

CUDA - RStudio Server ワークベンチイメージを使用すると、RStudio IDE および NVIDIA CUDA Toolkit にアクセスできます。RStudio IDE は、統計コンピューティングおよびグラフィックス用の R プログラミング言語の統合開発環境です。NVIDIA CUDA Toolkit を使用すると、GPU により高速化されたライブラリーと最適化ツールを使用して作業を強化できます。

CUDA - RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてビルドして、次に rstudio-rhel9 イメージストリームを編集して OpenShift AI UI で有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルドを参照してください。

重要

CUDA - RStudio Server ワークベンチイメージには、NVIDIA CUDA テクノロジーが含まれています。CUDA のライセンス情報は、CUDA Toolkit のドキュメントで入手できます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

非常に大規模なモデルのマルチノードデプロイメントのサポート

シングルモデルサービングランタイムの使用時に、複数のグラフィカルプロセッシングユニット (GPU) ノードを介してモデルを提供することが、テクノロジープレビュー機能として利用できるようになりました。大規模言語モデル (LLM) などの大規模なモデルをデプロイする際の効率を向上させるには、複数の GPU ノードにモデルをデプロイします。詳細は、複数の GPU ノードを使用したモデルのデプロイを参照してください。

第3章テクノロジープレビュー機能

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第3章 テクノロジープレビュー機能

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第3章テクノロジープレビュー機能