第 2 章 新功能及功能增强


本节介绍了 Red Hat OpenShift AI 2.19 的新功能和增强。

2.1. 新功能

guardrails Orchestrator Framework

Guardrails Orchestrator Framework 现已正式发布。

Guardrails Orchestrator 是一个 TrustyAI 服务,它为 Large Language Models (LLMs)添加安全性和策略检查(guardrails)。由 TrustyAI Operator 管理,它可让您定义规则(检测器)来过滤 LLM 输入/输出。

为什么它很重要?

  • LLMs 可以生成有害、biased 或不准确的内容。guardrails Orchestrator 降低了这些风险,防止声誉、严重问题和法律责任。
  • 它有助于确保您的 LLM 应用程序安全、可靠和策略兼容。主要优势包括检测有害的内容、强制实施策略以及提高安全性和质量。
OpenShift 中分布式 PyTorch 作业的 Kubeflow Training Operator (KFTO)
此功能允许用户使用 PyTorch 作业使用 Kubeflow Training Operator (KTFO)运行分布式培训作业,支持 NVIDIA 和 AMD 加速器。
查看已安装的组件和版本
现在,您可以查看已安装的 OpenShift AI 组件、其相应的上游组件以及安装组件的版本的列表。您可以从 Red Hat OpenShift AI 仪表板的 Help About 菜单访问已安装组件的列表。
用于模型存储的 OCI 容器

您可以使用 OCI 存储作为模型服务的替代云存储服务。首先,创建一个 OCI 容器镜像来包含模型。该镜像上传到兼容 OCI 的 registry 中,如 Quay。在部署模型时,模型服务平台会引用容器化模型的存储库。

使用 OCI 容器可以提供以下优点:

  • 减少了启动时间,因为集群保留了下载的镜像的缓存。重启模型 pod 不会再次下载模型。
  • 磁盘空间使用率较低,因为每个 pod 副本上没有下载模型,假设 pod 调度到同一节点上。
  • 增强在预抓取镜像或异步加载时的性能。
  • 兼容性和集成,因为它可与 KServe 轻松集成。不需要额外的依赖项,且基础架构可能已经可用。

如需更多信息,请参阅使用 OCI 容器进行模型存储

KFTO 的多节点分布式培训

现在支持使用 Kubeflow Training Operator 的多个节点和 GPU 的分布式 PyTorch 培训。这个功能启用了以下功能:

  • 使用 PyTorchJob API 为每个节点配置一个或多个 GPU
  • 支持 kubeflow-training SDK
  • 支持带有可配置资源分配的 NCCL、RCCL 和 GLOO 后端用于 GPU 和 CPU 工作负载
  • 培训脚本可以使用 ConfigMap 挂载,也可以包含在自定义容器镜像中。
  • 支持 DDP 和 FSDP 分布式培训方法。
  • 通过分布式工作负载功能或 Kueue 进行作业调度
  • 可使用 OpenShift 监控访问运行时指标
用于分布式模型培训的 NVIDIA GPUDirect RDMA 支持

NVIDIA GPUDirect RDMA (使用 Remote Direct Memory Access (RDMA)提供直接 GPU 互连)现在支持 KFTO 的分布式模型培训。此功能启用了与 RDMA over Converged Ethernet (RoCE)和 InfiniBand 在兼容的 NVIDIA 加速网络平台上进行基于 NCCL 的收集通信。

CUDA 的 Kubeflow training 镜像已更新,使其包含 RDMA 用户空间库。

支持 Oracle Cloud Infrastructure (OCI)上的 OpenShift AI Self-Managed

OpenShift AI Self-Managed 现在在 Oracle Cloud Infrastructure (OCI)上的 Red Hat OpenShift Container Platform 上被支持。如需有关 OpenShift AI 支持的软件平台的更多信息,请参阅 Red Hat OpenShift AI: 支持的配置 知识库文章。

有关在 OCI 上安装 OpenShift Container Platform 的更多信息,请参阅在 OCI 上安装

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat