第 3 章 已知问题 当您使用启用了-- enable-chunked-prefill 的 Red Hat AI Inference Server 3.1 容器镜像在 NVIDIA T4 加速器上部署模型时,任何 chat 或 text completion 查询都会导致模型崩溃并重启。要解决这个问题,请在部署模型 时删除-enable-chunked-prefill 标志。 前一个下一个