Este contenido no está disponible en el idioma seleccionado.

Chapter 3. Known issues

When you deploy a model on an NVIDIA T4 accelerator using the Red Hat AI Inference Server 3.1 container image with --enable-chunked-prefill enabled, any chat or text completion query causes the model inference to crash and restart. To workaround this issue, remove the --enable-chunked-prefill flag when you deploy the model.

Volver arriba

Github

Youtube

Twitter

Aprender

Pruebe, compre y venda

Comunidades

Acerca de la documentación de Red Hat

Ayudamos a los usuarios de Red Hat a innovar y alcanzar sus objetivos con nuestros productos y servicios con contenido en el que pueden confiar. Explore nuestras recientes actualizaciones.

Hacer que el código abierto sea más inclusivo

Red Hat se compromete a reemplazar el lenguaje problemático en nuestro código, documentación y propiedades web. Para más detalles, consulte el Blog de Red Hat.

Acerca de Red Hat

Ofrecemos soluciones reforzadas que facilitan a las empresas trabajar en plataformas y entornos, desde el centro de datos central hasta el perímetro de la red.