第3章 テクノロジープレビュー機能
このセクションでは、Red Hat OpenShift AI のテクノロジープレビュー機能を説明します。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
- OpenShift AI 上の Llama Stack を使用して生成 AI アプリケーションをビルドする
このリリースでは、OpenShift AI の Llama Stack テクノロジープレビュー機能により、次世代の生成 AI アプリケーションを構築するための Retrieval-Augmented Generation (RAG) とエージェントワークフローが可能になります。この機能は、リモート推論、組み込みのエンベディング、ベクトルデータベース操作をサポートしています。また、安全性を担当する TrustyAI のプロバイダーや、評価を担当する Trusty AI の LM-Eval プロバイダーなどのプロバイダーと統合します。
このプレビューには、Llama Stack Operator を有効にし、RAG ツールを操作し、PDF の取り込みとキーワード検索機能を自動化してドキュメントの検出を強化するためのツール、コンポーネント、ガイダンスが含まれています。
- 集中型プラットフォームメトリクスとトレース
- 集中型プラットフォームメトリクスとトレースが、OpenShift AI のテクノロジープレビュー機能として提供されるようになりました。この機能により、Cluster Observability Operator (COO)、Red Hat build of OpenTelemetry、および Tempo Operator との統合が可能になり、OpenShift AI にオプションですぐに使用できる観測可能性設定が追加されます。また、専用の可観測性スタックも導入されています。今後のリリースでは、専用の可観測性スタックで、インフラストラクチャーのシグナルと顧客のワークロードのシグナルが収集されます。
- Llama Stack Distribution バージョン 0.2.17 のサポート
Llama Stack Distribution には、テクノロジープレビューとして Llama-stack バージョン 0.2.17 が含まれるようになりました。この機能により、次のようなさまざまな機能が実現します。
- モデルプロバイダー: vLLM などのセルフホストプロバイダーが自動的に登録されるようになったため、INFERENCE_MODEL 変数を手動で設定する必要がなくなりました。
- インフラストラクチャーとバックエンド: OpenAI 推論が改善され、Vector Store API のサポートが追加されました。
- エラー処理: エラーが標準化され、ライブラリークライアントの初期化が改善されました。
- アクセス制御: Vector Store および File API でアクセス制御が強制的に適用され、テレメトリー読み取り API はユーザーロールで制御されるようになりました。
- バグの修正。
- IBM Power アクセラレーション Triton 推論サーバーのサポート
Python と ONNX バックエンドを使用して、Triton 推論サーバー (CPU のみ) の Power アーキテクチャーサポートを有効にできるようになりました。Triton 推論サーバーを、Red Hat OpenShift AI のテクノロジープレビューとして IBM Power アーキテクチャー上のカスタムモデルサービングランタイムとしてデプロイできます。
詳細は、Triton Inference Server image を参照してください。
- Kubernetes Event-driven Autoscaling (KEDA) のサポート
OpenShift AI は、標準のデプロイメントモードで Kubernetes Event-driven Autoscaling (KEDA) をサポートするようになりました。このテクノロジープレビュー機能により、推論サービスのメトリクススベースの自動スケーリングが可能になり、アクセラレーターリソースの管理の効率化、運用コストの削減、推論サービスのパフォーマンス向上を実現します。
標準デプロイメントで推論サービスの自動スケーリングを設定するには、KEDA に基づく OpenShift Custom Metrics Autoscaler (CMA) をインストールして設定する必要があります。
この機能の詳細は、メトリクスベースの自動スケーリングの設定 を参照してください。
- LM-Eval モデル評価 UI 機能
- TrustyAI は、使いやすい LM-Eval モデル評価の UI を、テクノロジープレビューとして提供するようになりました。この機能を使用すると、特定のモデルの評価パラメーターを入力し、評価結果ページを返すことすべてを UI から行うことができます。
- LlamaStack で Guardrails Orchestrator を使用する
組み込みの検出コンポーネントを使用して、テクノロジープレビュー機能として Llama Stack を備えた TrustyAI の Guardrails Orchestrator ツールを使用して検出を実行できるようになりました。この機能を使用するには、TrustyAI が有効になっていること、FMS Orchestrator とディテクターが設定されていること、および必要に応じて完全な互換性を確保するために KServe RawDeployment モードが使用されていることを確認してください。手動でのセットアップは必要ありません。
その後、Red Hat OpenShift AI Operator の
DataScienceCluster
カスタムリソースで、spec.llamastackoperator.managementState
フィールドをManaged
に設定します。詳細は、GitHub の次のリソースを参照してください。
- Kubernetes API を使用したパイプラインの定義および管理
Kubernetes API を使用してデータサイエンスパイプラインとパイプラインバージョンを定義および管理できるようになりました。この方法では、パイプラインとパイプラインバージョンが、内部データベースではなくクラスター内のカスタムリソースとして保存されます。このテクノロジープレビュー機能により、OpenShift GitOps (Argo CD) または同様のツールを使用してパイプラインを管理しやすくなります。同時に、引き続き OpenShift AI ユーザーインターフェイス、API、
kfp
SDK を使用してパイプラインを管理することもできます。このオプションはデフォルトで有効になっており、パイプラインサーバーを作成または編集するときに Store pipeline definitions in Kubernetes チェックボックスで設定できます。クラスター管理者は、
DataSciencePipelinesApplication
(DSPA) カスタムリソースでspec.apiServer.pipelineStore
フィールドをkubernetes
またはdatabase
に指定し、このオプションを設定することもできます。詳細は、Kubernetes API を使用したパイプラインの定義 を参照してください。- LAB-tuning によるモデルのカスタマイズ
LAB-tuning がテクノロジープレビュー機能として提供され、データサイエンティストは大規模言語モデル (LLM) をカスタマイズするためのエンドツーエンドのワークフローを実行できるようになりました。LAB (Large-scale Alignment for chatBots) メソッドは、タクソノミーガイドによる合成データ生成 (SDG) と多段階のトレーニングアプローチを活用して、従来のファインチューニングに代わるより効率的な方法を提供します。
データサイエンティストは、新しい事前設定済みの InstructLab パイプラインを使用して、OpenShift AI ダッシュボードから直接 LAB-tuning ワークフローを実行できるため、チューニングプロセスが簡素化されます。LAB-tuning の有効化と使用の詳細は、LAB-tuning の有効化 および LAB-tuning を使用したモデルのカスタマイズ を参照してください。
重要LAB-tuning 機能は、現在、非接続環境ではサポートされていません。
- Red Hat OpenShift AI モデルカタログ
Red Hat OpenShift AI モデルカタログがテクノロジープレビュー機能として利用可能になりました。この機能は、ユーザーを Granite ファミリーのモデル、および LAB-tuning で使用される教師モデルとジャッジモデルに接続するところから始まります。
注記モデルカタログ機能は現在、非接続環境ではサポートされていません。
- 新しい Feature Store コンポーネント
Red Hat OpenShift AI Operator で、Feature Store を設定可能なコンポーネントとしてインストールおよび管理できるようになりました。オープンソースの Feast プロジェクトをベースにした Feature Store は、ML モデルとデータ間の橋渡しとして機能し、ML ライフサイクル全体にわたって一貫性のあるスケーラブルな機能管理を可能にします。
このテクノロジープレビューリリースでは、次の機能が導入されています。
- 機能を一貫して再利用できるようにする集中型機能リポジトリー
- ML モデルの特徴量を定義、管理、取得するためのプログラムおよびコマンドライン操作用の Python SDK および CLI
- 機能の定義と管理
- 幅広いデータソースのサポート
- 特徴量の具体化によるデータ取り込み
- オンラインモデル推論とオフラインモデルトレーニングの両方のための特徴量検索
- ロールベースのアクセス制御 (RBAC) による機密機能の保護
- サードパーティーのデータおよびコンピュートプロバイダーとの拡張性と統合
- 企業の ML 要件を満たすスケーラビリティー
- 検索可能な特徴量カタログ
可観測性を高めるデータ系統追跡
設定の詳細は、Feature Store の設定 を参照してください。
- ノードセレクターを使用して、Red Hat OpenShift AI ダッシュボードの特定ワーカーノードに対するワークベンチのターゲットデプロイメントを有効にします。
ハードウェアプロファイルがテクノロジープレビューとして利用できるようになりました。ハードウェアプロファイル機能を使用すると、ユーザーはワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにすることができます。これにより、ユーザーは特定のアクセラレータータイプまたは CPU のみのノードをターゲットにすることができます。
この機能は、現在のアクセラレータープロファイル機能とコンテナーサイズセレクターフィールドに代わるもので、さまざまなハードウェア設定を対象とするより幅広い機能セットを提供します。アクセラレータープロファイル、taint、および toleration は、ワークロードをハードウェアにマッチングする機能を提供しますが、特に一部のノードに適切な taint がない場合、ワークロードが特定のノードに配置されるかどうかは保証されません。
ハードウェアプロファイル機能は、アクセラレーターと CPU のみの設定の両方とノードセレクターをサポートします。これにより、特定のワーカーノードのターゲット設定機能が強化されます。管理者は設定メニューでハードウェアプロファイルを設定できます。該当する場合、ユーザーはワークベンチ、モデルサービング、およびデータサイエンスパイプラインの UI を使用して、有効なプロファイルを選択できます。
- RStudio Server ワークベンチイメージ
RStudio Server ワークベンチイメージを使用すると、R の統合開発環境である RStudio IDE にアクセスできます。R プログラミング言語は、データ分析と予測をサポートする統計コンピューティングとグラフィックスに使用されます。
RStudio Server
ノートブックイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドします。次に、rstudio-rhel9
イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。重要免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
- CUDA - RStudio Server ワークベンチイメージ
CUDA - RStudio Server ワークベンチイメージを使用すると、RStudio IDE および NVIDIA CUDA Toolkit にアクセスできます。RStudio IDE は、統計コンピューティングおよびグラフィックス用の R プログラミング言語の統合開発環境です。NVIDIA CUDA Toolkit を使用すると、GPU により高速化されたライブラリーと最適化ツールを使用して作業を強化できます。
CUDA - RStudio Server
ワークベンチイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドします。次に、rstudio-rhel9
イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。重要免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
CUDA - RStudio Server ワークベンチイメージには、NVIDIA CUDA テクノロジーが含まれています。CUDA のライセンス情報は、CUDA Toolkit のドキュメントで入手できます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。
- モデルレジストリー
- OpenShift AI が Model Registry Operator をサポートするようになりました。Model Registry Operator は、テクノロジープレビューモードではデフォルトではインストールされていません。モデルレジストリーは、機械学習モデルの開始からデプロイメントまでに関するメタデータを格納する中央リポジトリーです。
- 非常に大規模なモデルのマルチノードデプロイメントのサポート
- シングルモデルサービングランタイムの使用時に、複数のグラフィカルプロセッシングユニット (GPU) ノードを介してモデルを提供することが、テクノロジープレビュー機能として利用できるようになりました。大規模言語モデル (LLM) などの大規模なモデルをデプロイする際の効率を向上させるには、複数の GPU ノードにモデルをデプロイします。詳細は、複数の GPU ノードにわたるモデルのデプロイ を参照してください。