第 5 章 开发人员预览功能
本节介绍 Red Hat OpenShift AI 3.0 中的开发人员技术预览功能。Developer Preview(开发人员预览)功能不被红帽支持,其功能可能并不完善且不是生产环境就绪。不要将开发人员预览功能用于生产环境或业务关键型工作负载。开发人员预览功能在红帽产品产品中包括早期对功能的访问。客户可以使用这些功能在开发过程中测试并提供反馈。开发人员预览功能可能没有任何文档,可以随时更改或删除,并且已获得有限的测试。红帽可能会提供在没有关联 SLA 的情况下提交对开发人员预览功能的反馈。
有关红帽开发人员预览功能的支持范围的更多信息,请参阅 开发人员预览支持范围。
- 模型即服务(MaaS)集成
此功能作为开发者预览提供。
OpenShift AI 现在包括模型即服务(MaaS),以解决与服务大型语言模型(LLM)相关的资源消耗和管理挑战。
MaaS 通过受管 API 端点公开模型来提供对模型访问和资源使用情况的集中控制,让管理员能够在不同团队间强制实施消费策略。
此开发者预览引入了以下功能:
- 策略和配额管理
- 认证和授权
- 使用跟踪
用户管理
如需更多信息,请参阅 OpenShift AI 中的 Introducing Models-as-a-Service。
- AI 可用资产与模型即服务(MaaS)集成.
此功能作为开发者预览提供。
现在,您可以从 GenAI Studio 中的 AI Available Assets 页面直接访问和使用 Model-as-a-Service (MaaS)模型。
管理员可以通过在 Model Deployments 页面中启用切换来配置 MaaS。当模型被标记为服务时,它会变为全局状态,并在集群中的所有项目中可见。
- 在 Model Deployments for AI Available Assets 集成中添加了其他字段
此功能作为开发者预览提供。
管理员现在可以在部署期间将元数据添加到模型,以便它们会在 AI Available Assets 页面中自动列出。
下表描述了新的元数据字段,可简化由其他团队发现并可使用的新元数据字段:
| 字段名称 | 字段类型 | 描述 |
|---|---|---|
| 使用案例 | 自由格式文本 | 描述模型的主要目的,例如 "Customer Churn Prediction" 或 "Image Classification for Product Catalog"。 |
| 描述 | 自由格式文本 | 为模型提供更详细的上下文和功能说明。 |
| 添加到 AI Assets | 复选框 | 启用后,会自动将模型及其元数据发布到 AI Available Assets 页面。 |
- Llama Stack 远程供应商和 SDK 与 MCP HTTP 流协议的兼容性
此功能作为开发者预览提供。
Llama Stack 远程供应商和 SDK 现在与模型控制协议(MCP) HTTP 流协议兼容。
此功能增强使开发人员能够构建完全无状态的 MCP 服务器,简化在标准 Llama Stack 基础架构(包括无服务器环境)上部署,并提高了可扩展性。它还为将来的增强功能做好准备,如连接恢复,并提供从服务器-Sent 事件(SSE)的平稳过渡。
- 将 ITS Hub 依赖项打包到红帽维护的 Python 索引
此功能作为开发者预览提供。
所有Inference Time Scaling (ITS)运行时依赖项现在打包在红帽维护的 Python 索引中,允许 Red Hat AI 和 OpenShift AI 客户直接使用
pip安装其_hub及其依赖项。此功能增强允许用户使用 ITS 算法构建自定义 inference 镜像,专注于提高模型准确性,而无需模型重新培训,例如:
- 参与过滤
- best-of-N
- beam search
- 自我不一致
verifier 或 PRM-guided 搜索
如需更多信息,请参阅 GitHub 上的 ITS Hub。
- 动态硬件感知式培训策略
现在,可以使用静态硬件配置文件支持来帮助用户根据 VRAM 要求和参考基准选择培训方法、型号和超线程。这种方法可确保在没有动态硬件发现的情况下可预测的、可靠的培训工作流。
包含以下组件:
- API Memory Estimator :接受模型、培训方法、数据集元数据和假定的超参数作为输入,并返回培训工作的预期 VRAM 要求。在 Training Hub 中作为 API 提供。
- 参考资料和基准 :为 OpenShift AInova (OSFT)和高性能团队(LAB SFT)基准提供端到端培训时间基准,在 Training Hub 中作为静态表和文档提供。
Hyperparameter uidance :发布关键超参数的安全开始范围,如学习速率、批处理大小、时期和 LoRA 等级。集成到由 AInova 团队维护的笔记本示例。
重要这个版本不包括硬件发现。只提供静态参考表和指导;还不支持自动 GPU 或 CPU 检测。
- Llama Stack 代理中的 human-in-Loop (HIL)功能
human-in-Loop (HIL)功能已添加到 Llama Stack 代理中,允许用户在执行前批准未读取的工具调用。
此功能增强包括以下功能:
- 用户可以通过响应 API 批准或拒绝未经读取的工具调用。
- 配置选项指定哪个工具调用需要 HIL 批准。
- 工具调用暂停,直到收到启用了 HIL 的工具进行用户批准。
- 不需要 HIL 的工具调用在没有中断的情况下继续运行。