第3章 大規模モデルの提供


Red Hat OpenShift AI には、大規模言語モデル (LLM) などの大規模モデルをデプロイするために、KServe コンポーネントをベースとした シングルモデルサービングプラットフォーム が組み込まれています。各モデルが独自のモデルサーバーからデプロイされるため、シングルモデルサービングプラットフォームは、多くのリソースを必要とする大規模なモデルのデプロイ、監視、スケーリング、および保守に役立ちます。

3.1. シングルモデルサービングプラットフォームについて

OpenShift AI には、大規模言語モデル (LLM) などの大規模モデルをデプロイするために、KServe コンポーネントをベースとしたシングルモデルサービングプラットフォームが組み込まれています。各モデルが独自のモデルサーバー上にデプロイされるため、シングルモデルサービングプラットフォームは、多くのリソースを必要とする大規模なモデルのデプロイ、監視、スケーリング、および保守に役立ちます。

3.1.1. コンポーネント

  • KServe : あらゆるタイプのモデルに対するモデルサービングを調整する Kubernetes カスタムリソース定義 (CRD)。KServe には、指定されたモデルサーバータイプの読み込みを実装するモデルサービングランタイムが含まれます。KServe は、デプロイメントオブジェクト、ストレージアクセス、およびネットワーク設定のライフサイクルも処理します。
  • Red Hat OpenShift Serverless: モデルのサーバーレスデプロイメントを可能にするクラウドネイティブ開発モデル。OpenShift Serverless は、オープンソースの Knative プロジェクトをベースにしています。
  • Red Hat OpenShift Service Mesh: トラフィックフローを管理し、アクセスポリシーを適用するサービスメッシュネットワーキングレイヤー。OpenShift Service Mesh は、オープンソースの Istio プロジェクトをベースにしています。

3.1.2. インストールオプション

シングルモデルサービングプラットフォームをインストールするには、次のオプションがあります。

自動インストール

OpenShift クラスターに ServiceMeshControlPlane または KNativeServing リソースをまだ作成していない場合は、KServe とその依存関係をインストールして構成するように Red Hat OpenShift AI Operator を設定できます。

自動インストールの詳細は、KServe の自動インストールの設定 を参照してください。

手動インストール

OpenShift クラスターに ServiceMeshControlPlane または KNativeServing リソースをすでに作成している場合は、KServe とその依存関係をインストールして構成するように Red Hat OpenShift AI Operator を 設定できません。この状況では、KServe を手動でインストールする必要があります。

手動インストールの詳細は、KServe の手動インストール を参照してください。

3.1.3. モデルサービングランタイム

KServe をインストールすると、OpenShift AI ダッシュボードを使用して、カスタムまたはプリインストールされたモデルサービングランタイムを使用してモデルをデプロイできます。

OpenShift AI には、次の KServe 用のプリインストールされたランタイムが組み込まれています。

  • TGIS Standalone ServingRuntime for KServe: TGI 対応モデルを提供するためのランタイム
  • Caikit-TGIS ServingRuntime for KServe: Caikit 形式でモデルを提供するための複合ランタイム
  • Caikit Standalone ServingRuntime for KServe: 埋め込みタスク用の Caikit 埋め込み形式でモデルを提供するためのランタイム
  • OpenVINO Model Server: Intel アーキテクチャー向けに最適化されたモデルを提供するためのスケーラブルで高性能なランタイム
  • vLLM ServingRuntime for KServe: 大規模言語モデル向けの高スループットでメモリー効率の高い推論およびサービングランタイム
注記

3.1.4. 認可

シングルモデルサービングプラットフォームの認可プロバイダーとして Authorino を追加できます。認可プロバイダーを追加すると、プラットフォームにデプロイするモデルに対してトークン認可を有効にできます。その場合、認可されなければモデルに対して推論リクエストを実行できなくなります。

シングルモデルサービングプラットフォームに Authorino を認可プロバイダーとして追加するには、次のオプションがあります。

  • クラスター上でシングルモデルサービングプラットフォームの自動インストールが可能な場合は、自動インストールプロセスの一部として Authorino を含めることができます。
  • シングルモデルサービングプラットフォームを手動でインストールする必要がある場合は、Authorino も手動で設定する必要があります。

シングルモデルサービングプラットフォームのインストールオプションを選択する方法については、インストールオプション を参照してください。

3.1.5. モニタリング

シングルモデルサービングプラットフォームの監視を設定し、Prometheus を使用して、プリインストールされた各モデルサービングランタイムのメトリクスをスクレイピングできます。

Red Hat logoGithubRedditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

© 2024 Red Hat, Inc.