第 4 章 开发人员预览功能
本节介绍 Red Hat OpenShift AI 中的开发人员预览功能。
Developer Preview(开发人员预览)功能不被红帽支持,其功能可能并不完善且不是生产环境就绪。不要将开发人员预览功能用于生产环境或业务关键型工作负载。开发人员预览功能在红帽产品产品中包括早期对功能的访问。客户可以使用这些功能在开发过程中测试并提供反馈。开发人员预览功能可能没有任何文档,可以随时更改或删除,并且已获得有限的测试。红帽可能会提供在没有关联 SLA 的情况下提交对开发人员预览功能的反馈。
有关红帽开发人员预览功能的支持范围的更多信息,请参阅 开发人员预览支持范围。
- LLM 的分布式保险服务器
- 分布式保险服务器(带有分布式路由的vLLM)现在作为开发者技术预览功能提供。分布式 Inference 服务器支持多型号服务、智能推测调度和区分服务以提高 GenAI 模型的 GPU 利用率。
如需更多信息,请参阅使用 LLM Inference Service (LLM-D)部署模型。
- 使用 LM-Eval 为 TrustyAI-Llama Stack 运行评估
现在,您可以使用带有 TrustyAI 作为开发者预览功能的 LM-Eval 在 LM-Eval 上运行评估,使用内置的 LM-Eval 组件和高级内容模式集成工具。要使用这个功能,请确保启用了 TrustyAI,并设置了 FMS Orchestrator 和 detectors,并在需要时使用 KServe RawDeployment 模式实现完全兼容性。不需要手动设置。
然后,在 Red Hat OpenShift AI Operator 的
DataScienceCluster
自定义资源中,将spec.llamastackoperator.managementState
字段设置为Managed
。如需更多信息,请参阅 GitHub 上的以下资源:
- LLM Compressor 集成
LLM Compressor 功能现在包括在 Red Hat OpenShift AI 中作为开发者技术预览功能。使用
llm-compressor
库以及相应的数据科学管道运行时镜像的新工作台镜像,可以更轻松地压缩和优化您的大型语言模型(LLM),以便有效地使用 vLLM 部署。如需更多信息,请参阅 GitHub 中的llm-compressor
。您可以通过两种方式使用 LLM Compressor 功能:
-
使用位于 Red Hat Quay.io 的工作台镜像的 Jupyter 笔记本:
opendatahub / llmcompressor-workbench
。
有关 Jupyter 笔记本示例,请参阅red-hat-ai-
。examples
存储库中的示例/llmcompressor/workbench_examplenb -
使用 Red Hat Quay.io 提供的运行时镜像,运行模型压缩作为批处理进程执行模型压缩:
opendatahub / llmcompressor-pipeline-runtime
。
如需示例管道,请参阅red-hat-ai-
。examples
存储库中的示例/llmcompressor/oneshot_pipeline.py
-
使用位于 Red Hat Quay.io 的工作台镜像的 Jupyter 笔记本:
- 支持 Kueue 中的 AppWrapper
- Kue 中的 AppWrapper 支持作为开发者技术预览功能提供。实验性 API 支持使用带有分布式工作负载功能的基于 AppWrapper 的工作负载。