第 2 章 新功能及功能增强
本节介绍了 Red Hat OpenShift AI 2.19 的新功能和增强。
2.1. 新功能 复制链接链接已复制到粘贴板!
- guardrails Orchestrator Framework
Guardrails Orchestrator Framework 现已正式发布。
Guardrails Orchestrator 是一个 TrustyAI 服务,它为 Large Language Models (LLMs)添加安全性和策略检查(guardrails)。由 TrustyAI Operator 管理,它可让您定义规则(检测器)来过滤 LLM 输入/输出。
为什么它很重要?
- LLMs 可以生成有害、biased 或不准确的内容。guardrails Orchestrator 降低了这些风险,防止声誉、严重问题和法律责任。
- 它有助于确保您的 LLM 应用程序安全、可靠和策略兼容。主要优势包括检测有害的内容、强制实施策略以及提高安全性和质量。
- OpenShift 中分布式 PyTorch 作业的 Kubeflow Training Operator (KFTO)
- 此功能允许用户使用 PyTorch 作业使用 Kubeflow Training Operator (KTFO)运行分布式培训作业,支持 NVIDIA 和 AMD 加速器。
- 查看已安装的组件和版本
-
现在,您可以查看已安装的 OpenShift AI 组件、其相应的上游组件以及安装组件的版本的列表。您可以从 Red Hat OpenShift AI 仪表板的 Help
About 菜单访问已安装组件的列表。
- 用于模型存储的 OCI 容器
您可以使用 OCI 存储作为模型服务的替代云存储服务。首先,创建一个 OCI 容器镜像来包含模型。该镜像上传到兼容 OCI 的 registry 中,如 Quay。在部署模型时,模型服务平台会引用容器化模型的存储库。
使用 OCI 容器可以提供以下优点:
- 减少了启动时间,因为集群保留了下载的镜像的缓存。重启模型 pod 不会再次下载模型。
- 磁盘空间使用率较低,因为每个 pod 副本上没有下载模型,假设 pod 调度到同一节点上。
- 增强在预抓取镜像或异步加载时的性能。
- 兼容性和集成,因为它可与 KServe 轻松集成。不需要额外的依赖项,且基础架构可能已经可用。
如需更多信息,请参阅使用 OCI 容器进行模型存储。
- KFTO 的多节点分布式培训
现在支持使用 Kubeflow Training Operator 的多个节点和 GPU 的分布式 PyTorch 培训。这个功能启用了以下功能:
- 使用 PyTorchJob API 为每个节点配置一个或多个 GPU
-
支持
kubeflow-training
SDK - 支持带有可配置资源分配的 NCCL、RCCL 和 GLOO 后端用于 GPU 和 CPU 工作负载
- 培训脚本可以使用 ConfigMap 挂载,也可以包含在自定义容器镜像中。
- 支持 DDP 和 FSDP 分布式培训方法。
- 通过分布式工作负载功能或 Kueue 进行作业调度
- 可使用 OpenShift 监控访问运行时指标
- 用于分布式模型培训的 NVIDIA GPUDirect RDMA 支持
NVIDIA GPUDirect RDMA (使用 Remote Direct Memory Access (RDMA)提供直接 GPU 互连)现在支持 KFTO 的分布式模型培训。此功能启用了与 RDMA over Converged Ethernet (RoCE)和 InfiniBand 在兼容的 NVIDIA 加速网络平台上进行基于 NCCL 的收集通信。
CUDA 的 Kubeflow training 镜像已更新,使其包含 RDMA 用户空间库。
- 支持 Oracle Cloud Infrastructure (OCI)上的 OpenShift AI Self-Managed
OpenShift AI Self-Managed 现在在 Oracle Cloud Infrastructure (OCI)上的 Red Hat OpenShift Container Platform 上被支持。如需有关 OpenShift AI 支持的软件平台的更多信息,请参阅 Red Hat OpenShift AI: 支持的配置 知识库文章。
有关在 OCI 上安装 OpenShift Container Platform 的更多信息,请参阅在 OCI 上安装。