第5章 開発者プレビュー機能
このセクションでは、Red Hat OpenShift AI 3.0 の開発者プレビュー機能を説明します。開発者プレビュー機能は、Red Hat ではいかなる形でもサポートされていません。また、機能的には完全ではなく、実稼働環境に対応していません。開発者プレビュー機能を実稼働ワークロードまたはビジネスクリティカルなワークロードには使用しないでください。開発者プレビュー機能は、Red Hat 製品に追加される可能性がある機能をいち早く提供することを目的としています。お客様はこの機能を使用してテストし、開発プロセス中にフィードバックを提供できます。開発者プレビュー機能は、ドキュメントが提供されていない場合があり、随時変更または削除される可能性があります。また、限定的なテストしか行われていません。Red Hat は、関連する SLA なしで、開発者プレビュー機能に関するフィードバックを送信する方法を提供する場合があります。
Red Hat 開発者プレビュー機能のサポート範囲の詳細は、開発者プレビューのサポート範囲 を参照してください。
- Model-as-a-Service (MaaS) 統合
この機能は開発者プレビューとして利用できます。
OpenShift AI には、大規模言語モデル (LLM) の提供に関連するリソース消費とガバナンスの課題に対処するための Model-as-a-Service (MaaS) が含まれるようになりました。
MaaS は、管理された API エンドポイントを通じてモデルを公開することで、モデルアクセスとリソース使用の集中管理を提供し、管理者がチーム全体に消費ポリシーを適用できるようにします。
この開発者プレビューでは、次の機能が導入されています。
- ポリシーおよびクォータ管理
- 認証および認可
- 使用状況の追跡
ユーザー管理
詳細は、Introducing Models-as-a-Service in OpenShift AI を参照してください。
- AI Available Assets と Model-as-a-Service (MaaS) の統合
この機能は開発者プレビューとして利用できます。
GenAI Studio の AI Available Assets ページから、Model-as-a-Service (MaaS) モデルに直接アクセスして使用できるようになりました。
管理者は、Model Deployments ページで切り替えを有効にすることで MaaS を設定できます。モデルがサービスとしてマークされると、そのモデルはグローバルになり、クラスター内のすべてのプロジェクトで表示されるようになります。
- AI Available Assets との統合向けに、Model Deployments に追加のフィールドが追加されました。
この機能は開発者プレビューとして利用できます。
管理者は、AI Available Assets ページに自動的にリストされるように、デプロイメント中にメタデータをモデルに追加できるようになりました。
次の表は、他のチームがモデルを検出して使用できるようにするプロセスを効率化する新しいメタデータフィールドについて説明しています。
| フィールド名 | フィールドタイプ | 説明 |
|---|---|---|
| ユースケース | 自由形式のテキスト | モデルの主な目的を説明します (例: 「顧客離れ予測」または「製品カタログのイメージ分類」)。 |
| 説明 | 自由形式のテキスト | モデルのより詳細なコンテキストと機能に関するメモを提供します。 |
| AI アセットへの追加 | チェックボックス | 有効にすると、モデルとそのメタデータが AI Available Assets ページに自動的に公開されます。 |
- Llama Stack リモートプロバイダーおよび SDK と、MCP HTTP ストリーミングプロトコルとの互換性
この機能は開発者プレビューとして利用できます。
Llama Stack リモートプロバイダーと SDK は、Model Control Protocol (MCP) HTTP ストリーミングプロトコルと互換性を持つようになりました。
この機能拡張により、開発者は完全にステートレスな MCP サーバーを構築し、標準の Llama Stack インフラストラクチャー (サーバーレス環境を含む) へのデプロイメントを簡素化し、スケーラビリティーを改善できるようになります。また、接続再開などの将来的な機能拡張にも備え、Server-Sent Events (SSE) からのスムーズな移行を実現します。
- ITS Hub の依存関係が Red Hat が管理する Python インデックスにパッケージ化されました
この機能は開発者プレビューとして利用できます。
すべての Inference Time Scaling (ITS) ランタイム依存関係が Red Hat が管理する Python インデックスにパッケージ化され、Red Hat AI および OpenShift AI のお客様は、
pipを使用してits_hubとその依存関係を直接インストールできるようになりました。この機能拡張により、ユーザーは、モデルの再トレーニングを必要とせずに、推論時にモデルの精度を向上させることに焦点を当てた ITS アルゴリズムを使用して、次のようなカスタム推論イメージをビルドできるようになります。
- パーティクルフィルタリング
- ベストオブ N
- ビームサーチ
- 自己無矛盾性
verifier または PRM ガイドによる検索
詳細は、ITS Hub on GitHub を参照してください。
- 動的ハードウェア対応継続トレーニングストラテジー
静的ハードウェアプロファイルのサポートが利用可能になり、ユーザーは VRAM 要件と参照ベンチマークに基づいて、トレーニング方法、モデル、ハイパーパラメーターを選択できるようになりました。このアプローチにより、動的なハードウェア検出を行わなくても、予測可能で信頼性の高いトレーニングワークフローが確保されます。
以下のコンポーネントが含まれています。
- API メモリー推定器: モデル、トレーニングメソッド、データセットメタデータ、想定されるハイパーパラメーターを入力として受け入れ、トレーニングジョブの推定 VRAM 要件を返します。Training Hub 内の API として提供されます。
- 参照プロファイルとベンチマーク: OpenShift AI Innovation (OSFT) および Performance Team (LAB SFT) ベースラインのエンドツーエンドのトレーニング時間ベンチマークを提供し、Training Hub で静的なテーブルとドキュメントとして提供されます。
ハイパーパラメーターガイダンス: 学習率、バッチサイズ、エポック、LoRA ランクなどの主要なハイパーパラメーターの安全な開始範囲を公開します。AI Innovation チームによって管理されているサンプルノートブックに統合されています。
重要このリリースにはハードウェア検出は含まれていません。静的な参照テーブルとガイダンスのみが提供されます。自動 GPU または CPU 検出はまだサポートされていません。
- Llama Stack エージェントの Human-in-the-Loop (HIL) 機能
Llama Stack エージェントに Human-in-the-Loop (HIL) 機能が追加され、ユーザーは実行前に未読のツール呼び出しを承認できるようになりました。
この機能拡張には次の機能が含まれます。
- ユーザーは、Responses API を通じて未読のツール呼び出しを承認または拒否できます。
- 設定オプションは、どのツール呼び出しに HIL 承認が必要かを指定します。
- HIL 対応ツールに対するユーザーの承認を受信するまで、ツール呼び出しは一時停止されます。
- HIL を必要としないツール呼び出しは中断されることなく実行され続けます。