1.8. InferenceService カスタムリソースの作成


InferenceService カスタムリソース (CR) を作成して、AI モデルを提供するためのデプロイメントを作成する方法を KServe に指示します。KServe は、InferenceService CR で指定された modelFormat 値に基づいて ServingRuntime を使用します。

前提条件

  • ServingRuntimes CR を設定している。
  • マシンへの root ユーザーアクセス権がある。
  • OpenShift CLI (oc) がインストールされている。

手順

  1. InferenceService CR を作成します。

    openvino_ir モデル形式の InferenceService オブジェクトの例

    apiVersion: serving.kserve.io/v1beta1
    kind: InferenceService
    metadata:
      name: ovms-resnet50
    spec:
      predictor:
        model:
          protocolVersion: v2
          modelFormat:
            name: openvino_ir
          storageUri: "oci://localhost/ovms-resnet50:test"
          args:
          - --layout=NHWC:NCHW 
    1
    Copy to Clipboard Toggle word wrap

    1
    OpenVINO Model Server (OVMS) が、モデルが元々エクスポートされたレイアウトとは異なるレイアウトで、要求入力データを受け入れるようにするための追加の引数。追加の引数は OVMS コンテナーに渡されます。
  2. InferenceService の例をファイルに保存してから、次のコマンドを実行してクラスター上に作成します。

    $ oc create -n <ai_demo> -f ./FILE.yaml 
    1
    Copy to Clipboard Toggle word wrap
    1
    <ai_demo> は、namespace 名に置き換えます。

    出力例

    inferenceservice.serving.kserve.io/ovms-resnet50 created
    Copy to Clipboard Toggle word wrap

    注記

    デプロイメントと Pod は、指定された namespace に表示されることが予想されます。ServingRuntime CR で指定されたイメージのサイズと ModelCar OCI イメージのサイズによっては、Pod の準備が完了するまでに数分かかる場合があります。

次のステップ

  • モデルサービングランタイムの準備ができていることを確認します。

1.8.1. Open Telemetry を使用してモデルサーバーメトリクスをエクスポートする

MicroShift 用の microshift-observability RPM をインストールした場合は、Open Telemetry を使用してモデルサーバーメトリクスをエクスポートできます。

注記

または、/metrics エンドポイントでリクエストすることで、モデルサーバーの Prometheus 形式のメトリクスを取得することもできます。詳細は、「モデルサーバーのメトリクスを取得する」を参照してください。

前提条件

  • ServingRuntimes CR を設定している。
  • マシンへの root ユーザーアクセス権がある。
  • OpenShift CLI (oc) がインストールされている。
  • microshift-observability RPM をインストールしている。
  • MicroShift Open Telemetry 設定には Prometheus Receiver が含まれている。詳細は、Prometheus Receiver を参照してください。

手順

  • InferenceService カスタムリソースに次の Open Telemetry アノテーションを追加します。

    Open Telemetry を使用した InferenceService オブジェクトの例

    apiVersion: serving.kserve.io/v1beta1
    kind: InferenceService
    metadata:
      name: ovms-resnet50
    #...
      annotations:
        prometheus.io/scrape: "true"
    #...
    Copy to Clipboard Toggle word wrap

1.8.2. その他の InferenceService CR オプション

推論サービスの YAML ファイルには、さまざまなオプションを含めることができます。たとえば、最初にデプロイメントに渡され、次に Pod に渡される resources セクションを含めることで、モデルサーバーがデバイスプラグインを通じてハードウェアにアクセスできるようになります。

InferenceService CR 内の NVIDIA デバイス resources スニペットの例

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  name: is-name
spec:
  predictor:
    model:
      resources:
        limits:
          nvidia.com/gpu: 1
        requests:
          nvidia.com/gpu: 1
#...
Copy to Clipboard Toggle word wrap

完全な InferenceService 仕様については、Control Plane API Reference (KServe ドキュメント) を参照してください。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat