第 3 章 技术预览功能
本节介绍了 Red Hat OpenShift AI 2.25 中的技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
- IBM Spyre AI 加速器模型在 x86 平台上支持
- 使用 IBM Spyre AI Accelerator 提供的模型现在作为 x86 平台的技术预览功能提供。IBM Spyre Operator 会自动安装并集成设备插件、二级调度程序和监控。如需更多信息,请参阅 IBM Spyre Operator 目录条目。
- 使用 llm-d 进行分布式干扰
- 目前,llm-d 的分布式干扰作为技术预览提供。使用 llm-d 的分布式干扰支持多模式服务、智能推测调度和披露服务,以提高 GenAI 模型上的 GPU 利用率。如需更多信息,请参阅使用 llm-d 的分布式干扰部署模型。
- 在 OpenShift AI 上生成带有 Llama Stack 的生成 AI 应用程序
在这个版本中,Llama Stack 技术预览功能启用 Retrieval-Augmented Generation (RAG)和代理工作流用于构建下一代 generative AI 应用程序。它支持远程推测、内置嵌入和向量数据库操作。它还与 TrustyAI's 供应商(安全)和 Trusty AI 的 LM-Eval 供应商集成以进行评估。
此预览包括启用 Llama Stack Operator 的工具、组件和指导,与 RAG 工具交互,以及自动化 PDF ingestion 和关键字搜索功能来增强文档发现。
- 集中平台可观察性
集中平台可观察性(包括指标、跟踪和内置警报)作为技术预览功能提供。此解决方案为 OpenShift AI 引入了一个专用的、预先配置的可观察性堆栈,它允许集群管理员执行以下操作:
- 查看 OpenShift AI 组件和工作负载的平台指标(Prometheus)和分布式追踪(Tempo)。
- 管理一组涵盖关键组件健康和性能问题的内置警报(alertmanager)。
通过编辑
DataScienceClusterInitialization(DSCI)自定义资源,将平台和工作负载指标导出到外部第三方可观察性工具。您可以通过与 Cluster Observability Operator、Red Hat build of OpenTelemetry 和 Tempo Operator 集成来启用此功能。如需更多信息,请参阅监控和可观察性。如需更多信息,请参阅管理可观察性。
- 支持 Llama Stack 分发版本 0.2.17
Llama Stack 分发现在包括 Llama-stack 版本 0.2.17 作为技术预览。这个功能带来了很多功能,包括:
- Model provider :现在自动注册(如 vLLM)的自托管供应商,因此不再需要手动设置 INFERENCE_MODEL 变量。
- 基础架构和后端:改进了 OpenAI 推测并添加了对 Vector Store API 的支持。
- 错误处理:错误现已标准化,并且改进了库客户端初始化。
- 访问控制:Vector Store 和 File API 现在强制执行访问控制,遥测读取 API 由用户角色授权。
- 错误修复。
- 支持 IBM Power 加速 Triton Inference Server
现在,您可以使用 Python 和 ONNX 后端为 Triton inference 服务器(仅限 CPU)启用 Power 架构支持。您可以将 Triton inference 服务器部署为 IBM Power 架构上的自定义模型服务运行时,作为 Red Hat OpenShift AI 中的技术预览功能。
- 支持 IBM Z 加速 Triton Inference Server
现在,您可以使用多个后端选项(包括 ONNX-MLIR、Snap ML (C++)和 PyTorch)启用对 Triton Inference Server (Telum I/Telum II)的 Z 架构支持。Triton Inference Server 可以部署为 IBM Z 架构上的自定义模型服务运行时,作为 Red Hat OpenShift AI 中的技术预览功能。
- 支持 Kubernetes 事件驱动的自动扩展(KEDA)
OpenShift AI 现在在其 KServe RawDeployment 模式中支持 Kubernetes 事件驱动的自动扩展(KEDA)。此技术预览功能为 inference 服务启用了基于指标的自动扩展功能,可以更有效地管理加速器资源、降低操作成本并提高了您的推论服务的性能。
要在 KServe RawDeployment 模式中为您的 inference 服务设置自动扩展,您需要安装并配置基于 KEDA 的 OpenShift 自定义 Metrics Autoscaler (CMA)。
有关此功能的更多信息,请参阅配置 基于指标的自动扩展。
- LM-Eval 模型评估 UI 功能
- TrustyAI 现在为 LM-Eval 模型评估提供了一个用户友好的 UI,作为技术预览。此功能允许您为给定模型输入评估参数,并从 UI 返回 evaluation-results 页面。
- 使用带有 LlamaStack 的 Guardrails Orchestrator
现在,您可以使用 TrustyAI 和 Llama Stack 作为技术预览功能中的 Guardrails Orchestrator 工具运行检测,使用内置的检测组件。要使用这个功能,请确保启用了 TrustyAI,并设置了 FMS Orchestrator 和 detectors,并在需要时使用 KServe RawDeployment 模式实现完全兼容性。不需要手动设置。然后,在 Red Hat OpenShift AI Operator 的
DataScienceCluster自定义资源中,将spec.llamastackoperator.managementState字段设置为Managed。如需更多信息,请参阅 GitHub 上的 Trusty AI FMS Provider。
- 新功能存储组件
现在,您可以在 OpenShift AI 中安装和管理功能存储作为可配置组件。基于开源 Feast 项目,Feature Store 充当 ML 模型和数据之间的桥接,从而在 ML 生命周期之间实现一致且可扩展的功能管理。
这个技术预览版本引进了以下功能:
- 集中功能存储库,实现一致性功能重复使用
- Python SDK 和 CLI,用于编程和命令行交互,以定义、管理和检索 ML 模型的功能
- 功能定义和管理
- 支持各种数据源
- 通过功能材料化数据
- 对在线模型推测和离线模型培训的功能检索
- 基于角色的访问控制(RBAC)来保护敏感功能
- 可扩展性并与第三方数据和计算提供程序集成
- 可扩展性以满足企业 ML 的需求
- 可搜索功能目录
用于增强可观察性的数据线跟踪
详情请参阅 配置功能存储。
- IBM Power 和 IBM Z 架构支持
- IBM Power (ppc64le)和 IBM Z (s390x)架构现在作为技术预览功能支持。目前,您只能在这些架构中以 KServe RawDeployment 模式部署模型。
- 支持 IBM Power 和 IBM Z 构架中的 vLLM
- vLLM 运行时模板可用于 IBM Power 和 IBM Z 架构作为技术预览。
- 使用节点选择器,启用将工作台部署到 Red Hat OpenShift AI Dashboard 中的特定 worker 节点
硬件配置集现在作为技术预览提供。硬件配置集功能允许用户为工作台或模型保留工作负载为目标特定的 worker 节点。它允许用户以特定加速器类型或仅 CPU 的节点为目标。
此功能替换了当前的加速器配置集功能和容器大小选择器字段,为针对不同的硬件配置提供更广泛的功能。虽然加速器配置集、污点和容限为硬件提供一些匹配工作负载的功能,但它们不能确保工作负载在特定节点上,特别是某些节点缺少适当的污点。
硬件配置集功能支持加速器和 CPU 配置以及节点选择器,以增强特定 worker 节点的目标功能。管理员可以在设置菜单中配置硬件配置文件。用户可以在适用的情况下使用 UI 为工作台、模型服务和 Data Science Pipelines 选择启用的配置集。
- RStudio Server workbench 镜像
使用 RStudio 服务器工作台镜像,您可以访问 RStudio IDE,这是 RStudio 的集成开发环境。R 编程语言用于统计计算和图形来支持数据分析和预测。
要使用 RStudio Server workbench 镜像,您必须首先通过创建 secret 并触发
BuildConfig来构建它,然后通过编辑r Studio-rhel9镜像流在 OpenShift AI UI 中启用它。如需更多信息,请参阅 构建 RStudio 服务器工作台镜像。重要免责声明: 红帽支持在 OpenShift AI 中管理工作台。但是,红帽不为 RStudio 软件提供支持。RStudio 服务器可以通过 r Studio.org 提供,并遵循其许可条款。在使用此示例工作台前,您应该查看其许可条款。
- CUDA - RStudio Server workbench 镜像
使用 CUDA - RStudio Server workbench 镜像,您可以访问 RStudio IDE 和 NVIDIA CUDA Toolkit。RStudio IDE 是用于统计计算和图形的 R 编程语言的集成开发环境。使用 NVIDIA CUDA 工具包,您可以使用 GPU 加速的库和优化工具来增强您的工作。
要使用 CUDA - RStudio Server workbench 镜像,您必须首先通过创建 secret 并触发
BuildConfig来构建它,然后通过编辑r Studio-rhel9镜像流在 OpenShift AI UI 中启用它。如需更多信息,请参阅 构建 RStudio 服务器工作台镜像。重要免责声明: 红帽支持在 OpenShift AI 中管理工作台。但是,红帽不为 RStudio 软件提供支持。RStudio 服务器可以通过 r Studio.org 提供,并遵循其许可条款。在使用此示例工作台前,您应该查看其许可条款。
CUDA - RStudio Server workbench 镜像包含 NVIDIA CUDA 技术。CUDA Toolkit 文档中提供了 CUDA 许可信息。在使用此示例工作台前,您应该查看其许可条款。
- 支持非常大型模型的多节点部署
- 当使用单模式服务运行时,在多个图形处理单元(GPU)节点上提供模型现在作为技术预览提供。在多个 GPU 节点间部署模型,以便在部署大型语言模型(LLM)时提高效率。如需更多信息,请参阅 使用多个 GPU 节点部署模型。