第2章 新機能および機能拡張
このセクションでは、Red Hat OpenShift AI 2.16 の新機能および拡張機能について説明します。
2.1. 新機能
- カスタマイズ可能な提供ランタイムパラメーター
- モデルを提供するときに、パラメーター値と環境変数をランタイムに渡すことができるようになりました。ランタイムパラメーターのカスタマイズは、vLLM に関連する GenAI ユースケースで特に重要です。
- 数量化されたモデルのデプロイのサポート
-
KServe ランタイムに vLLM ServingRuntime を使用して、Marlin カーネル用 に数量化されたモデルをデプロイできます。モデルが Marlin の数量付けされている場合、vLLM は基礎となるハードウェアに基づいて Marlin カーネルを自動的に使用します。他の
数量モデルの場合は、quantization=marlin
カスタムパラメーターを使用できます。サポートされているハードウェアの詳細は、vLLM Web サイトの Supported Hardware for Quantization Kernels を参照してください。 - code-server ワークベンチイメージ
以前はテクノロジープレビュー機能として利用可能であった Red Hat OpenShift AI に含まれるコードサーバーワークベンチイメージが一般提供されました。詳細については、Working in code-server を参照してください。
code-server ワークベンチイメージを使用すると、さまざまな拡張機能を使用して新しい言語、テーマ、デバッガーを追加し、追加のサービスに接続することで、ワークベンチ環境をカスタマイズできます。構文の強調表示、自動インデント、括弧の一致により、データサイエンス作業の効率も向上します。
注記Elyra ベースのパイプラインは、code-server ワークベンチイメージでは使用できません。