第4章 開発者プレビュー機能
このセクションでは、Red Hat OpenShift AI の開発者プレビュー機能を説明します。
開発者プレビュー機能は、Red Hat ではいかなる形でもサポートされていません。また、機能的には完全ではなく、実稼働環境に対応していません。開発者プレビュー機能を実稼働ワークロードまたはビジネスクリティカルなワークロードには使用しないでください。開発者プレビュー機能は、Red Hat 製品に追加される可能性がある機能をいち早く提供することを目的としています。お客様はこの機能を使用してテストし、開発プロセス中にフィードバックを提供できます。開発者プレビュー機能は、ドキュメントが提供されていない場合があり、随時変更または削除される可能性があります。また、限定的なテストしか行われていません。Red Hat は、関連する SLA なしで、開発者プレビュー機能に関するフィードバックを送信する方法を提供する場合があります。
Red Hat 開発者プレビュー機能のサポート範囲の詳細は、開発者プレビューのサポート範囲 を参照してください。
- LLM 向け Distributed Inference Server
- Distributed Inference Server (分散ルーティングを備えた vLLM) が開発者プレビュー機能として利用できるようになりました。Distributed Inference Server は、マルチモデルサービング、インテリジェントな推論スケジューリング、分散サービングをサポートし、GenAI モデルでの GPU 使用率を向上させます。
詳細は、Deploying a model by using the LLM Inference Service (LLM-D) を参照してください。
- LM-Eval を使用して TrustyAI-Llama Stack の評価を実行する
組み込みの LM-Eval コンポーネントと高度なコンテンツモデレーションツールを使用して、開発者プレビュー機能として TrustyAI を搭載した Llama Stack で LM-Eval を使用して評価を実行できるようになりました。この機能を使用するには、TrustyAI が有効になっていること、FMS Orchestrator とディテクターが設定されていること、および必要に応じて完全な互換性を確保するために KServe RawDeployment モードが使用されていることを確認してください。手動でのセットアップは必要ありません。
その後、Red Hat OpenShift AI Operator の
DataScienceClusterカスタムリソースで、spec.llamastackoperator.managementStateフィールドをManagedに設定します。詳細は、GitHub の次のリソースを参照してください。
- LLM Compressor の統合
LLM Compressor 機能が、開発者プレビュー機能として Red Hat OpenShift AI で利用できるようになりました。
llm-compressorライブラリーを含む新しいワークベンチイメージと対応するデータサイエンスパイプラインランタイムイメージにより、大規模言語モデル (LLM) の圧縮と最適化が容易になり、vLLM を使用した効率的なデプロイメントが可能になります。詳細は、GitHub のllm-compressorを参照してください。LLM コンプレッサーの機能は次の 2 つの方法で使用できます。
-
Red Hat Quay.io:
opendatahub / llmcompressor-workbenchからのワークベンチイメージ Jupyter ノートブックを使用します。
Jupyter ノートブックの例は、red-hat-ai-examplesリポジトリーのexamples/llmcompressor/workbench_example.ipynbを参照してください。 -
データサイエンスパイプラインを実行します。このデータサイエンスパイプラインは、Red Hat Quay.io:
opendatahub / llmcompressor-pipeline-runtimeからのランタイムイメージを使用して、モデル圧縮をバッチプロセスとして実行します。
パイプラインの例は、red-hat-ai-examplesリポジトリーのexamples/llmcompressor/oneshot_pipeline.pyを参照してください。
-
Red Hat Quay.io:
- Kueue での AppWrapper のサポート
- Kueue での AppWrapper のサポートは、開発者プレビュー機能として利用できます。実験的な API により、分散ワークロード機能で AppWrapper ベースのワークロードを使用できます。