はじめに
Red Hat AI Inference Server で OCI 準拠モデルの推論を実行できます。言語モデルの S3 または URI ベースのストレージの代替手段として、OCI 準拠のモデルコンテナー (または modelcars) にモデルを保存します。OCI モデルイメージを使用すると、コンテナー用にすでに存在する同じバージョン管理、キャッシュ、セキュリティー、およびディストリビューションインフラストラクチャーを使用して、コンテナーレジストリーを介してモデルを配布できます。
modelcar コンテナーを使用すると、繰り返しダウンロードを回避することで起動時間が短縮され、ディスク使用量が削減され、事前に取得したイメージを使用することでパフォーマンスが向上します。Modelcar コンテナーは、アプリケーションコンテナーとともに標準のコンテナーレジストリーに保存できるため、統一されたモデルのバージョン管理と配布ワークフローが可能になります。
クラスター内の modelcar コンテナーに言語モデルをデプロイする前に、モデルを OCI コンテナーイメージにパッケージ化し、そのコンテナーイメージをクラスターにデプロイする必要があります。