第3章 テクノロジープレビュー機能


重要

このセクションでは、Red Hat OpenShift AI 2.25 のテクノロジープレビュー機能を説明します。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。

x86 プラットフォームにおける IBM Spyre AI Accelerator のモデルサービングがサポートされるようになりました
IBM Spyre AI Accelerator によるモデルサービングが、x86 プラットフォームのテクノロジープレビュー機能として利用できるようになりました。IBM Spyre Operator はインストールを自動化し、デバイスプラグイン、セカンダリースケジューラー、および監視を統合します。詳細は、IBM Spyre Operator カタログエントリー を参照してください。
Distributed Inference with llm-d
llm-d を使用した分散推論は現在、テクノロジープレビュー機能として利用できます。Distributed Inference with llm-d は、マルチモデルサービング、インテリジェントな推論スケジューリング、分散サービングをサポートし、GenAI モデルでの GPU 使用率を向上させます。詳細は、llm-d による Distributed Inference を使用したモデルのデプロイ を参照してください。
OpenShift AI 上の Llama Stack を使用して生成 AI アプリケーションをビルドする

このリリースでは、Llama Stack テクノロジープレビュー機能により、次世代の生成 AI アプリケーションを構築するための Retrieval-Augmented Generation (RAG) とエージェントワークフローが可能になります。この機能は、リモート推論、組み込みのエンベディング、ベクトルデータベース操作をサポートしています。また、安全性を担当する TrustyAI のプロバイダーや、評価を担当する Trusty AI の LM-Eval プロバイダーなどのプロバイダーと統合します。

このプレビューには、Llama Stack Operator を有効にし、RAG ツールを操作し、PDF の取り込みとキーワード検索機能を自動化してドキュメントの検出を強化するためのツール、コンポーネント、ガイダンスが含まれています。

集中型プラットフォームの可観測性

メトリクス、トレース、組み込みアラートなどの集中型プラットフォームの可観測性は、テクノロジープレビュー機能として利用できます。このソリューションは、OpenShift AI 専用の事前設定済みの可観測性スタックを導入し、クラスター管理者が次のアクションを実行できるようにします。

  • OpenShift AI コンポーネントとワークロードのプラットフォームメトリクス (Prometheus) と分散トレース (Tempo) を表示します。
  • 重要なコンポーネントの健全性とパフォーマンスの問題をカバーする組み込みアラート (alertmanager) のセットを管理します。
  • DataScienceClusterInitialization (DSCI) カスタムリソースを編集して、プラットフォームとワークロードのメトリクスを外部のサードパーティーの可観測性ツールにエクスポートします。

    この機能は、Cluster Observability Operator、Red Hat build of OpenTelemetry、および Tempo Operator と統合することで有効にできます。詳細は、監視と可観測性を参照してください。詳細は、可観測性の管理 を参照してください。

Llama Stack Distribution バージョン 0.2.17 のサポート

Llama Stack Distribution には、テクノロジープレビューとして Llama-stack バージョン 0.2.17 が含まれるようになりました。この機能により、次のようなさまざまな機能が実現します。

  • モデルプロバイダー: vLLM などのセルフホストプロバイダーが自動的に登録されるようになったため、INFERENCE_MODEL 変数を手動で設定する必要がなくなりました。
  • インフラストラクチャーとバックエンド: OpenAI 推論が改善され、Vector Store API のサポートが追加されました。
  • エラー処理: エラーが標準化され、ライブラリークライアントの初期化が改善されました。
  • アクセス制御: Vector Store および File API でアクセス制御が強制的に適用され、テレメトリー読み取り API はユーザーロールで制御されるようになりました。
  • バグの修正。
IBM Power アクセラレーション Triton Inference Server のサポート

Python と ONNX バックエンドを使用して、Triton Inference Server (CPU のみ) の Power アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Power アーキテクチャー上のカスタムモデルサービングランタイムとしてデプロイできます。

詳細は、Triton Inference Server image を参照してください。

IBM Z アクセラレーション Triton Inference Server のサポート

ONNX-MLIR、Snap ML (C++)、PyTorch などの複数のバックエンドオプションを使用して、Triton Inference Server (Telum I/Telum II) の Z アーキテクチャーサポートを有効にできるようになりました。Triton Inference Server は、Red Hat OpenShift AI のテクノロジープレビュー機能として、IBM Z アーキテクチャー上でカスタムサービングランタイムとしてデプロイできます。

詳細は、IBM Z accelerated Triton Inference Server を参照してください。

Kubernetes Event-driven Autoscaling (KEDA) のサポート

OpenShift AI は、KServe RawDeployment モードで Kubernetes Event-driven Autoscaling (KEDA) をサポートするようになりました。このテクノロジープレビュー機能により、推論サービスのメトリクススベースの自動スケーリングが可能になり、アクセラレーターリソースの管理の効率化、運用コストの削減、推論サービスのパフォーマンス向上を実現します。

KServe RawDeployment モードで推論サービスの自動スケーリングをセットアップするには、KEDA に基づく OpenShift Custom Metrics Autoscaler (CMA) をインストールして設定する必要があります。

この機能の詳細は、メトリクスベースの自動スケーリングの設定 を参照してください。

LM-Eval モデル評価 UI 機能
TrustyAI は、使いやすい LM-Eval モデル評価の UI を、テクノロジープレビューとして提供するようになりました。この機能を使用すると、特定のモデルの評価パラメーターを入力し、評価結果ページを返すことすべてを UI から行うことができます。
LlamaStack で Guardrails Orchestrator を使用する

組み込みの検出コンポーネントを使用して、テクノロジープレビュー機能として Llama Stack を備えた TrustyAI の Guardrails Orchestrator ツールを使用して検出を実行できるようになりました。この機能を使用するには、TrustyAI が有効になっていること、FMS Orchestrator とディテクターが設定されていること、および必要に応じて完全な互換性を確保するために KServe RawDeployment モードが使用されていることを確認してください。手動でのセットアップは必要ありません。その後、Red Hat OpenShift AI Operator の DataScienceCluster カスタムリソースで、spec.llamastackoperator.managementState フィールドを Managed に設定します。

詳細は、GitHub の Trusty AI FMS Provider を参照してください。

新しい Feature Store コンポーネント

OpenShift AI で Feature Store を設定可能なコンポーネントとしてインストールおよび管理できるようになりました。オープンソースの Feast プロジェクトをベースにした Feature Store は、ML モデルとデータ間の橋渡しとして機能し、ML ライフサイクル全体にわたって一貫性のあるスケーラブルな機能管理を可能にします。

このテクノロジープレビューリリースでは、次の機能が導入されています。

  • 機能を一貫して再利用できるようにする集中型機能リポジトリー
  • ML モデルの特徴量を定義、管理、取得するためのプログラムおよびコマンドライン操作用の Python SDK および CLI
  • 機能の定義と管理
  • 幅広いデータソースのサポート
  • 特徴量の具体化によるデータ取り込み
  • オンラインモデル推論とオフラインモデルトレーニングの両方のための特徴量検索
  • ロールベースのアクセス制御 (RBAC) による機密機能の保護
  • サードパーティーのデータおよびコンピュートプロバイダーとの拡張性と統合
  • 企業の ML 要件を満たすスケーラビリティー
  • 検索可能な特徴量カタログ
  • 可観測性を高めるデータ系統追跡

    設定の詳細は、Feature Store の設定 を参照してください。

IBM Power および IBM Z アーキテクチャーのサポート
IBM Power (ppc64le) および IBM Z (s390x) アーキテクチャーがテクノロジープレビュー機能としてサポートされるようになりました。現在、これらのアーキテクチャーでは、KServe RawDeployment モードでのみモデルをデプロイできます。
IBM Power および IBM Z アーキテクチャーでの vLLM のサポート
vLLM ランタイムテンプレートは、テクノロジープレビューとして IBM Power および IBM Z アーキテクチャーで使用できます。
ノードセレクターを使用して、Red Hat OpenShift AI ダッシュボードの特定ワーカーノードに対するワークベンチのターゲットデプロイメントを有効にします。

ハードウェアプロファイルがテクノロジープレビューとして利用できるようになりました。ハードウェアプロファイル機能を使用すると、ユーザーはワークベンチまたはモデルサービングワークロードの特定のワーカーノードをターゲットにすることができます。これにより、ユーザーは特定のアクセラレータータイプまたは CPU のみのノードをターゲットにすることができます。

この機能は、現在のアクセラレータープロファイル機能とコンテナーサイズセレクターフィールドに代わるもので、さまざまなハードウェア設定を対象とするより幅広い機能セットを提供します。アクセラレータープロファイル、taint、および toleration は、ワークロードをハードウェアにマッチングする機能を提供しますが、特に一部のノードに適切な taint がない場合、ワークロードが特定のノードに配置されるかどうかは保証されません。

ハードウェアプロファイル機能は、アクセラレーターと CPU のみの設定の両方とノードセレクターをサポートします。これにより、特定のワーカーノードのターゲット設定機能が強化されます。管理者は設定メニューでハードウェアプロファイルを設定できます。該当する場合、ユーザーはワークベンチ、モデルサービング、およびデータサイエンスパイプラインの UI を使用して、有効なプロファイルを選択できます。

RStudio Server ワークベンチイメージ

RStudio Server ワークベンチイメージを使用すると、R の統合開発環境である RStudio IDE にアクセスできます。R プログラミング言語は、データ分析と予測をサポートする統計コンピューティングとグラフィックスに使用されます。

RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてイメージをビルドし、次に rstudio-rhel9 イメージストリームを編集して OpenShift AI UI でイメージを有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。

重要

免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

CUDA - RStudio Server ワークベンチイメージ

CUDA - RStudio Server ワークベンチイメージを使用すると、RStudio IDE および NVIDIA CUDA Toolkit にアクセスできます。RStudio IDE は、統計コンピューティングおよびグラフィックス用の R プログラミング言語の統合開発環境です。NVIDIA CUDA Toolkit を使用すると、GPU により高速化されたライブラリーと最適化ツールを使用して作業を強化できます。

CUDA - RStudio Server ワークベンチイメージを使用するには、まずシークレットを作成し、BuildConfig をトリガーしてビルドして、次に rstudio-rhel9 イメージストリームを編集して OpenShift AI UI で有効にする必要があります。詳細は、RStudio Server ワークベンチイメージのビルド を参照してください。

重要

免責事項: Red Hat は、OpenShift AI のワークベンチの管理をサポートしています。ただし、Red Hat は RStudio ソフトウェアのサポートを提供していません。RStudio Server は rstudio.org から入手できます。RStudio Server には RStudio のライセンス条項が適用されます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

CUDA - RStudio Server ワークベンチイメージには、NVIDIA CUDA テクノロジーが含まれています。CUDA のライセンス情報は、CUDA Toolkit のドキュメントで入手できます。このサンプルワークベンチを使用する前に、ライセンス条項を確認してください。

非常に大規模なモデルのマルチノードデプロイメントのサポート
シングルモデルサービングランタイムの使用時に、複数のグラフィカルプロセッシングユニット (GPU) ノードを介してモデルを提供することが、テクノロジープレビュー機能として利用できるようになりました。大規模言語モデル (LLM) などの大規模なモデルをデプロイする際の効率を向上させるには、複数の GPU ノードにモデルをデプロイします。詳細は、複数の GPU ノードを使用したモデルのデプロイ を参照してください。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat