第3章 既知の問題 --enable-chunked-prefill を有効にした Red Hat AI Inference Server 3.1 コンテナーイメージを使用して NVIDIA T4 アクセラレーターにモデルをデプロイすると、チャットまたはテキスト補完クエリーによってモデル推論がクラッシュして再起動します。この問題を回避するには、モデルをデプロイするときに --enable-chunked-prefill フラグを削除します。 戻る次へ