发行注记


Red Hat OpenShift AI Self-Managed 3.0

与这个版本相关的功能、功能增强、已解决的问题以及已知的问题

摘要

本发行注记概述了 Red Hat OpenShift AI 版本 3.0 中的新功能、增强功能、已解决的问题和已知问题。

第 1 章 不支持升级到 OpenShift AI 3.0

您无法从 OpenShift AI 2.25 或任何更早的版本升级到 3.0。OpenShift AI 3.0 引入了重要的技术和组件更改,仅适用于新的安装。要使用 OpenShift AI 3.0,请在运行 OpenShift Container Platform 4.19 或更高版本的集群中安装 Red Hat OpenShift AI Operator,然后选择 fast-3.x 频道。

以后的发行版本中会提供升级的支持,包括从 OpenShift AI 2.25 升级到一个稳定的 3.x 版本。

如需更多信息,请参阅 为什么升级到 OpenShift AI 3.0 知识库文章。

第 2 章 OpenShift AI 概述

Red Hat OpenShift AI 是人工智能和机器学习(AI/ML)应用程序的数据科学家和开发人员的平台。

OpenShift AI 提供了一个环境,以便在内部或云中开发、培训、服务、测试和监控 AI/ML 模型和应用程序。

对于数据科学家,OpenShift AI 包括 Jupyter 和默认工作台镜像集合,使用模型开发所需的工具和库以及 TensorFlow 和 PyTorch 框架进行优化。部署并托管您的模型、将模型集成到外部应用程序中,并在任何混合云环境中导出模型以托管它们。您可以使用 Docker 容器构建带有 AI 管道的可移植机器学习(ML)工作流来增强 OpenShift AI 上的项目。您还可以使用图形处理单元(GPU)和 Intel Gaudi AI Accelerators 来加快数据科学试验。

对于管理员,OpenShift AI 在现有 Red Hat OpenShift 或 ROSA 环境中启用数据科学工作负载。使用您现有的 OpenShift 身份提供程序来管理用户,并管理可供工作台使用的资源,以确保数据科学家具有创建、培训和主机模型所需的内容。使用加速器降低成本并允许数据科学家使用图形处理单元(GPU)和 Intel Gaudi AI 加速器提高其端到端数据科学工作流的性能。

OpenShift AI 有两个部署选项:

  • 您可以在内部或云中安装 自我管理的软件。您可以在自我管理的环境中(如 OpenShift Container Platform)或 Red Hat OpenShift Dedicated (具有 AWS 或 GCP 客户云订阅)、Red Hat OpenShift Service on Amazon Web Services (ROSA 类或 ROSA HCP)或 Microsoft Azure Red Hat OpenShift OpenShift 安装 OpenShift AI Self-Managed。
  • 受管云服务,作为 Red Hat OpenShift Dedicated 中的附加组件安装(具有 AWS 或 GCP 的客户云订阅)或 Red Hat OpenShift Service on Amazon Web Services (ROSA classic)。

    有关 OpenShift AI Cloud Service 的详情,请参考 Red Hat OpenShift AI 产品文档

有关 OpenShift AI 支持的软件平台、组件和依赖项的详情,请查看 3.x 支持的配置

有关 3.0 发行生命周期的详细视图,包括完全支持阶段窗口,请参阅 Red Hat OpenShift AI Self-Managed Life Cycle 知识库文章。

第 3 章 新功能及功能增强

本节介绍 Red Hat OpenShift AI 3.0 中的新功能和增强。

3.1. 新功能

PyTorch v2.8.0 KFTO 培训镜像现已正式发布

现在,您可以在 OpenShift AI 中为分布式工作负载使用 PyTorch v2.8.0 培训镜像。

可用的新镜像如下:

  • ROCm-compatible KFTO 培训镜像:quay.io/modh/ training:py312-rocm63-torch280 与 ROCm 6.3 支持的 AMD 加速器兼容。
  • CUDA 兼容 KFTO 培训镜像:quay.io/modh/ training:py312-cuda128-torch280 与 CUDA 12.8 支持的 NVIDIA GPU 兼容。
硬件配置集

新的硬件配置集功能替换了之前的加速器配置集和旧 Container Size 选择器,用于工作台。

硬件配置文件提供了一种更灵活、一致的方式,为 AI 工作负载定义计算配置,简化了不同硬件类型的资源管理。

重要

加速器配置集和旧的 Container Size 选择器现已弃用,并将在以后的发行版本中删除。

连接 API 现已正式发布

Connections API 现在作为 OpenShift AI 中的正式发行(GA)功能提供。

此 API 可让您直接在 OpenShift AI 中创建和管理到外部数据源和服务的连接。连接通过标准化注解存储为 Kubernetes Secret,允许集成组件之间的基于协议的验证和路由。

IBM Power 和 IBM Z 架构支持

OpenShift AI 现在支持 IBM Power (ppc64le)和 IBM Z (s390x)架构。

这种扩展平台支持允许在 IBM 企业硬件上部署 AI 和机器学习工作负载,为异构环境提供更大的灵活性和可扩展性。

有关支持的软件平台、组件和依赖项的更多信息,请参阅知识库文章: 3.x 支持的配置

对 TrustyAI 的 IBM Power 和 IBM Z 架构支持

TrustyAI 现在作为 IBM Power (ppc64le)和 IBM Z (s390x)架构的通用可用性(GA)功能提供。

TrustyAI 是一个开源负责 AI 工具包,它提供一组工具来支持负责和透明的 AI 工作流。它提供公平性和数据偏移指标、本地和全局模型解释、文本破坏、语言模型基准测试和语言模型保护等功能。

这些功能有助于确保 IBM Power 和 IBM Z 系统上的 OpenShift AI 环境中的 AI 系统具有透明性、责任和协作。

IBM Power 和 IBM Z 架构支持 Model Registry

model Registry 现在可用于 IBM Power (ppc64le)和 IBM Z (s390x)架构。

Model Registry 是一个开源组件,可简化并标准化 AI 和机器学习(AI/ML)模型生命周期的管理。它为存储、版本控制和管理模型提供了一个集中平台,支持跨数据科学和 MLOps 团队无缝协作。

Model Registry 支持模型版本控制和线板跟踪、元数据管理和模型发现、模型批准和提升工作流、集成 CI/CD 和部署管道,以及管理、可审计以及 IBM Z 系统上的合规功能。

IBM Power 和 IBM Z 架构支持 Notebooks

现在,IBM Power (ppc64le)和 IBM Z (s390x)架构提供了笔记本。

笔记本为 OpenShift AI 生态系统中的数据科学、机器学习、研究和编码提供容器化、基于浏览器的开发环境。这些环境可以通过 Workbenches 启动,并包含以下选项:

  • Jupyter Minimal notebook: 用于基本 Python 开发和模型原型的轻量级 JupyterLab IDE。
  • Jupyter Data Science notebook :预先配置了用于端到端工作流的流行数据科学库和工具。
  • Jupyter TrustyAI 笔记本 :负责 AI 任务的环境,包括模型解释性、公平性、数据偏移检测和文本破坏。
  • Code Server :基于浏览器的 VS Code 环境,用于与熟悉的 IDE 功能进行协作开发。
  • 运行时最小 和运行时数据科学 :用于自动化工作流和一致性管道执行的无头环境。
IBM Power 架构支持功能存储

现在,IBM Power (ppc64le)架构支持功能存储。

通过这个支持,用户可以直接在 IBM Power 的环境中部署、注册和管理机器学习模型的功能,并与 OpenShift AI 完全集成。

IBM Power 架构支持 AI Pipelines

现在,IBM Power (ppc64le)架构支持 AI Pipelines。

此功能允许用户在 OpenShift AI 内原生定义、运行和监控 AI 管道,利用 IBM Power 系统的性能和可扩展性进行 AI 工作负载。

在 IBM Power 系统上执行的 AI Pipelines 使用 x86 部署维护功能奇偶校验。

支持 IBM Power 加速 Triton Inference Server

现在,您可以使用 FIL、PyTy、Python 和 ONNX 后端为 Triton inference 服务器(仅限 CPU)启用 Power 架构支持。您可以将 Triton inference 服务器部署为 Red Hat OpenShift AI 中的 IBM Power 架构上的自定义模型服务运行时。

详情请参阅 Triton Inference Server image

支持 IBM Z 加速 Triton Inference Server

现在,您可以使用多个后端选项(包括 ONNX-MLIR、Snap ML (C++)和 PyTorch)启用对 Triton Inference Server (Telum I/Telum II)的 Z 架构支持。Triton Inference Server 可以部署为 IBM Z 架构上的自定义模型服务运行时,作为 Red Hat OpenShift AI 中的技术预览功能。

详情请查看 IBM Z 加速 Triton Inference Server

IBM Spyre AI 加速器模型在 IBM Z 平台上支持

使用 IBM Spyre AI Accelerator 提供的模型现在作为 IBM Z 平台的通用可用性(GA)功能提供。

IBM Spyre Operator 会自动安装并集成关键组件,如设备插件、二级调度程序和监控。

如需更多信息,请参阅 IBM Spyre Operator 目录条目: IBM Spyre Operator - 红帽生态系统目录

注意

在 IBM Z 和 IBM LinuxONE 中,Red Hat OpenShift AI 支持在 IBM Spyre 上使用 vLLM 部署大型语言模型(LLM)。Triton Inference Server 只在 Telum (CPU)上被支持。

如需更多信息,请参阅以下文档:

模型自定义组件

OpenShift AI 3.0 引入了一组 模型自定义组件,简化了并增强准备、微调和部署 AI 模型的过程。

以下组件现在可用:

  • Red Hat AI Python Index: 一个由红帽维护的 Python 软件包索引,它托管受支持的软件包构建对 AI 和机器学习笔记本很有用。使用 Red Hat AI Python Index 在连接的和断开连接的环境中确保可靠和安全访问这些软件包。
  • 文档 :一个强大的 Python 库,用于高级数据处理,它将无结构的文档(如 PDF 或镜像)转换为干净的、用于 AI 和 ML 工作负载的机器可读格式。
  • synthetic Data Generation Hub (sdg-hub) :用于生成高质量的合成数据的工具包,以增强数据集、改进模型稳健性和地址边缘情况。
  • 培训 Hub :一个框架,可简化并加快使用您自己的数据对基础模型进行微调和自定义。
  • Kubeflow Trainer: 一个 Kubernetes 原生功能,支持分布式培训并微调模型,同时抽象底层基础架构的复杂性。
  • AI Pipelines :一个 Kubeflow-native 功能,用于在 AI 组件间构建可配置的工作流,包括此套件中的所有其他模型自定义模块。

3.2. 功能增强

对 Llama Stack 中的远程向量数据库进行混合搜索支持

现在,您可以在 OpenShift AI 中的 Llama Stack 中对远程向量数据库启用混合搜索。

此功能增强使企业能够利用现有的受管向量数据库基础架构,同时在不同数据库类型中保持高检索性能和灵活性。

IBM Spyre 支持带有 Caikit-TGIS 适配器的 IBM Z

现在,您可以使用带有 Caikit-TGIS gRPC 适配器的 KServe 在 IBM Z (s390x 架构)上使用 vLLM Spyre s390x ServingRuntimes 为 IBM Spyre AI Accelerators 提供模型。

此集成支持 OpenShift AI 中的 IBM Z 系统上的 generative AI 工作负载提供高性能模型服务和推测。

Data Science Pipelines 重命名为 AI Pipelines

OpenShift AI 现在使用术语 "AI Pipelines" 而不是 "Data Science Pipelines" 来更好地反映平台支持的 AI 和 generative AI 用例的范围。

在默认的 DataScienceCluster (default-dsc)中,datasciencepipelines 组件已被重命名为 aipipelines,以匹配此术语更新。

这仅仅是命名更改。AI 管道功能保持不变。

带有模型验证数据的模型目录增强

OpenShift AI Model Catalog 中的 Model Details 页面现在包含全面的模型验证数据,如性能基准、硬件兼容性和其他关键指标。

此功能增强提供了一个统一和详细的视图,与 Jounce UI 模型详情布局一致,允许用户通过单一接口更有效地评估模型。

使用搜索和过滤模型目录性能数据

Model Catalog 现在包含红帽验证的第三方模型的详细性能和验证数据,如基准和硬件兼容性指标。

增强的搜索和过滤功能(如按延迟或硬件配置集过滤)可帮助用户快速识别针对其特定用例和可用资源优化的模型,在 Red Hat AI Hub 中提供统一发现体验。

与 llm-d 的分布式干扰现已正式发布(GA)

使用 llm-d 的分布式干扰支持多模式服务、智能推测调度和反aggregate服务,以提高 generative AI 模型的 GPU 利用率。

注意

以下功能不被支持:

  • widement-Parallelism 多节点:开发者预览.
  • Blackwell B200: Not available on Blackwell B200:
  • GB200 上的多节点:不支持。
  • 在此发行版本中在 UI 中不支持网关发现和关联。用户必须通过 API 或 CLI 将模型与网关关联。
用于分布式推测的用户界面,使用 llm-d 部署配置

OpenShift AI 现在包含一个用户界面(UI),用于配置在 llm-d Serving Runtime 上运行的大型语言模型(LLM)部署。

这个简化的界面简化了常见的部署场景,方法是为部署提供基本配置选项,同时仍允许为部署明确选择 llm- runtime。

新的 UI 降低了设置复杂性,并帮助用户更有效地部署分布式推测工作负载。

新的导航系统

OpenShift AI 3.0 引入了重新设计的简化导航系统,可提高可用性和工作流效率。

新的布局允许用户在功能间无缝移动,简化了对关键功能的访问,并支持更顺畅的端到端体验。

增强 AI Pipelines 的身份验证

作为平台范围内的身份验证转换的一部分,OpenShift AI 3.0 将 oauth-proxy 替换为 AI Pipelines 的 kube-rbac-proxy

这个版本提高了安全性和兼容性,特别是在没有内部 OAuth 服务器的情况下的环境,如 Red Hat OpenShift Service on AWS。

当迁移到 kube-rbac-proxy 时,SubjectAccessReview (SAR)要求和 RBAC 权限会相应地更改。依赖内置 ds-pipeline-user-access-<dspa-name&gt; 角色的用户自动更新,而其他角色必须确保其角色包含对 datasciencepipelinesapplications/api 子资源的访问,其中包含以下动词: createupdatepatchdeletegetlistwatch

Observability 和 Grafana 集成,用于与 llm-d 的分布式干扰

在 OpenShift AI 3.0 中,平台管理员可以将可观察性组件连接到分布式 llm 部署,并与自托管 Grafana 实例集成以监控对工作负载。

通过此功能,团队可通过 llm-d 收集和视觉化 Prometheus 指标,以进行性能分析和自定义仪表板创建。

第 4 章 技术预览功能

重要

本节介绍 Red Hat OpenShift AI 3.0 中的技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

TrustyAI-Llama Stack 集成用于安全、保护rails 和评估

现在,您可以使用 TrustyAI 和 Llama Stack 中的 Guardrails Orchestrator 作为技术预览。

此集成支持内置的检测和评估工作流来支持 AI 安全和内容模式。启用 TrustyAI 并且配置了 FMS Orchestrator 和 detectors 时,不需要手动设置。

要激活此功能,请在 OpenShift AI Operator 的 DataScienceCluster 自定义资源中设置以下字段: spec.llamastackoperator.managementState: Managed

如需更多信息,请参阅 GitHub: TrustyAI FMS Provider 上的 TrustyAI FMS Provider

AI Available Assets 页面用于部署的模型和 MCP 服务器

新的 AI Available Assets 页面可让 AI 工程师和应用程序开发人员查看和使用其项目中部署的 AI 资源。

此功能增强引入了一个可过滤的 UI,它列出了所选项目中的可用模型和模型上下文协议(MCP)服务器,允许具有适当权限的用户识别可访问的端点并将其直接集成到 AI Playground 或其他应用程序中。

为模型测试和评估生成 AI Playground

generateive AI (GenAI) Playground 在 OpenShift AI 仪表板中引入了统一的互动体验,用于试验基础和自定义模型。

用户可以通过上传文档并与其内容进行聊天,测试 Retrieval-Augmented Generation (RAG)工作流的提示、比较模型并评估 Retrieval-Augmented Generation (RAG)工作流。GenAI Playground 还支持与批准的模型上下文协议(MCP)服务器集成,并启用导出提示和代理配置作为在本地 IDE 中持续迭代的可运行代码。

每个会话中都会保留 chat 上下文,从而为提示工程和模型试验提供合适的环境。

支持 air-gapped Llama Stack 部署

现在,您可以在完全断开连接的(air-gapped) OpenShift AI 环境中安装并运行 Llama Stack 和 RAG/Agentic 组件。

此功能增强支持在没有互联网访问的情况下安全部署 Llama Stack 功能,允许机构使用 AI 功能,同时遵守严格的网络安全策略。

功能存储与 Workbenches 和新用户访问功能集成

此功能作为技术预览提供。

Feature Store 现在与 OpenShift AI、数据科学项目和工作台集成。此集成还引入了集中管理的、基于角色的访问控制(RBAC)功能,以改进监管。

这些改进提供两个关键功能:

  • 工作台环境中的功能开发。
  • 管理员控制的用户访问。

    在这个版本中,简化了并加快数据科学家的功能发现和消耗,同时允许平台团队完全控制基础架构和功能访问。

功能存储用户界面

Feature Store 组件现在包含一个基于 Web 的用户界面(UI)。

您可以使用 UI 查看注册的功能存储对象及其关系,如功能、数据源、实体和功能服务。

要启用 UI,请编辑 FeatureStore 自定义资源(CR)实例。保存更改时,Feature Store Operator 将启动 UI 容器,并创建用于访问 OpenShift 路由。

如需更多信息,请参阅为初始使用 设置功能存储用户界面

IBM Spyre AI 加速器模型在 x86 平台上支持
使用 IBM Spyre AI Accelerator 提供的模型现在作为 x86 平台的技术预览功能提供。IBM Spyre Operator 会自动安装并集成设备插件、二级调度程序和监控。如需更多信息,请参阅 IBM Spyre Operator 目录条目
在 OpenShift AI 上生成带有 Llama Stack 的生成 AI 应用程序

在这个版本中,Llama Stack 技术预览功能启用 Retrieval-Augmented Generation (RAG)和代理工作流用于构建下一代 generative AI 应用程序。它支持远程推测、内置嵌入和向量数据库操作。它还与 TrustyAI's 供应商(安全)和 Trusty AI 的 LM-Eval 供应商集成以进行评估。

此预览包括启用 Llama Stack Operator 的工具、组件和指导,与 RAG 工具交互,以及自动化 PDF ingestion 和关键字搜索功能来增强文档发现。

集中平台可观察性

集中平台可观察性(包括指标、跟踪和内置警报)作为技术预览功能提供。此解决方案为 OpenShift AI 引入了一个专用的、预先配置的可观察性堆栈,它允许集群管理员执行以下操作:

  • 查看 OpenShift AI 组件和工作负载的平台指标(Prometheus)和分布式追踪(Tempo)。
  • 管理一组涵盖关键组件健康和性能问题的内置警报(alertmanager)。
  • 通过编辑 DataScienceClusterInitialization (DSCI)自定义资源,将平台和工作负载指标导出到外部第三方可观察性工具。

    您可以通过与 Cluster Observability Operator、Red Hat build of OpenTelemetry 和 Tempo Operator 集成来启用此功能。如需更多信息,请参阅监控和可观察性。如需更多信息,请参阅管理可观察性

支持 Llama Stack 分发版本 0.3.0

Llama Stack 分发现在包含版本 0.3.0 作为技术预览功能。

这个版本引入了几个改进,包括对检索生成(RAG)管道的扩展支持,改进了评估供应商集成,以及代理和向量存储管理的更新 API。它还提供与最新 OpenAI API 扩展和基础架构优化一致的兼容性更新,以实现分布式推测。

之前支持的版本为 0.2.22。

支持 Kubernetes 事件驱动的自动扩展(KEDA)

OpenShift AI 现在在其 KServe RawDeployment 模式中支持 Kubernetes 事件驱动的自动扩展(KEDA)。此技术预览功能为 inference 服务启用了基于指标的自动扩展功能,可以更有效地管理加速器资源、降低操作成本并提高了您的推论服务的性能。

要在 KServe RawDeployment 模式中为您的 inference 服务设置自动扩展,您需要安装并配置基于 KEDA 的 OpenShift 自定义 Metrics Autoscaler (CMA)。

有关此功能的更多信息,请参阅配置 基于指标的自动扩展

LM-Eval 模型评估 UI 功能
TrustyAI 现在为 LM-Eval 模型评估提供了一个用户友好的 UI,作为技术预览。此功能允许您为给定模型输入评估参数,并从 UI 返回 evaluation-results 页面。
使用带有 LlamaStack 的 Guardrails Orchestrator

现在,您可以使用 TrustyAI 和 Llama Stack 作为技术预览功能中的 Guardrails Orchestrator 工具运行检测,使用内置的检测组件。要使用这个功能,请确保启用了 TrustyAI,并设置了 FMS Orchestrator 和 detectors,并在需要时使用 KServe RawDeployment 模式实现完全兼容性。不需要手动设置。然后,在 Red Hat OpenShift AI Operator 的 DataScienceCluster 自定义资源中,将 spec.llamastackoperator.managementState 字段设置为 Managed

如需更多信息,请参阅 GitHub 上的 Trusty AI FMS Provider

支持使用 CodeFlare SDK 创建和管理 Ray 作业

现在,您可以通过 CodeFlare SDK 直接创建和管理 Ray 集群上的 Ray 作业。

此增强将 CodeFlare SDK 工作流与 KubernetesFlow Training Operator (KFTO)模型(其中自动创建、运行和完成)模型保持一致。此功能增强通过防止 Ray 集群在作业完成后保持活跃,简化了手动集群管理。

支持使用 OIDC 身份提供程序进行直接身份验证

使用 OpenID Connect (OIDC)身份提供程序直接验证现在作为技术预览提供。

此功能增强通过网关 API 集中 OpenShift AI 服务身份验证,提供安全、可扩展且可管理的身份验证模型。您可以使用 GatewayConfig 自定义资源使用外部 OIDC 供应商配置网关 API。

Synthetic Data Generation pipelines 的自定义流估算器

现在,您可以将自定义流估算器用于复合数据生成(SDG)管道。

对于支持的兼容 SDG 教授模型,估算程序可帮助您在运行完整工作负载前,在样本数据集上评估所选手模型、自定义流和支持的硬件。

Llama Stack 支持和优化单节点 OpenShift (SNO)

Llama Stack 内核现在可以在单一节点 OpenShift (SNO)上部署并高效运行。

此功能增强优化了组件启动和资源使用情况,以便 Llama Stack 可以在单节点集群环境中可靠地操作。

FAISS 向量存储集成

现在,您可以使用 FAIS (Facebook AI Similarity Search)库作为 OpenShift AI 中的内联向量存储。

FAISS 是一个开源框架,用于高性能向量搜索和集群,针对与 CPU 和 GPU 支持的密集数字进行了优化。当使用 Llama Stack 分发中的嵌入的 SQLite 后端启用时,FAISS 存储会存储在容器中本地嵌入的,不再需要外部向量数据库服务。

新功能存储组件

现在,您可以在 OpenShift AI 中安装和管理功能存储作为可配置组件。基于开源 Feast 项目,Feature Store 充当 ML 模型和数据之间的桥接,从而在 ML 生命周期之间实现一致且可扩展的功能管理。

这个技术预览版本引进了以下功能:

  • 集中功能存储库,实现一致性功能重复使用
  • Python SDK 和 CLI,用于编程和命令行交互,以定义、管理和检索 ML 模型的功能
  • 功能定义和管理
  • 支持各种数据源
  • 通过功能材料化数据
  • 对在线模型推测和离线模型培训的功能检索
  • 基于角色的访问控制(RBAC)来保护敏感功能
  • 可扩展性并与第三方数据和计算提供程序集成
  • 可扩展性以满足企业 ML 的需求
  • 可搜索功能目录
  • 用于增强可观察性的数据线跟踪

    详情请参阅 配置功能存储

对 Llama Stack 和 RAG 部署的 FIPS 支持

现在,您可以在需要 FIPS 合规的约束环境中部署 Llama Stack 和 RAG 或代理解决方案。

此功能增强提供 FIPS 认证和兼容的部署模式,以帮助机构满足 AI 工作负载的严格规范和认证要求。

为 Red Hat AI Platform 验证的 sdg-hub 笔记本

现在,可以使用经过验证的 sdg_hub 示例笔记本,在 OpenShift AI 3.0 中提供笔记本驱动的用户体验。

这些笔记本支持多个红帽平台,并通过 SDG 管道进行自定义。它们包括以下用例的示例:

  • 知识与技能调节,包括标注了调优模型的示例。
  • 整合数据生成以及原因跟踪以自定义原因模型。
  • 演示了使用默认块并为特殊工作流创建新块的自定义 SDG 管道。
RAGAS 评估供应商 Llama Stack (在线和远程)

现在,您可以使用 Retrieval-Augmented Generation assessment (RAGAS)评估供应商来测量 OpenShift AI 中 RAG 系统的质量和可靠性。

RAGAS 提供检索质量、回答相关性和事实一致性的指标,可帮助您识别问题并优化 RAG 管道配置。

与 Llama Stack 评估 API 集成支持两种部署模式:

  • 内联供应商:直接在 Llama Stack 服务器进程中运行 RAGAS 评估。
  • 远程供应商:使用 OpenShift AI 管道将 RAGAS 评估作为分布式作业运行。

    RAGAS 评估提供程序现在包含在 Llama Stack 分发中。

使用节点选择器,启用将工作台部署到 Red Hat OpenShift AI Dashboard 中的特定 worker 节点

硬件配置集现在作为技术预览提供。硬件配置集功能允许用户为工作台或模型保留工作负载为目标特定的 worker 节点。它允许用户以特定加速器类型或仅 CPU 的节点为目标。

此功能替换了当前的加速器配置集功能和容器大小选择器字段,为针对不同的硬件配置提供更广泛的功能。虽然加速器配置集、污点和容限为硬件提供一些匹配工作负载的功能,但它们不能确保工作负载在特定节点上,特别是某些节点缺少适当的污点。

硬件配置集功能支持加速器和 CPU 配置以及节点选择器,以增强特定 worker 节点的目标功能。管理员可以在设置菜单中配置硬件配置文件。用户可以在适用的情况下使用 UI 为工作台、模型服务和 AI 管道选择启用的配置集。

RStudio Server workbench 镜像

使用 RStudio 服务器工作台镜像,您可以访问 RStudio IDE,这是 RStudio 的集成开发环境。R 编程语言用于统计计算和图形来支持数据分析和预测。

要使用 RStudio Server workbench 镜像,您必须首先通过创建 secret 并触发 BuildConfig 来构建它,然后通过编辑 r Studio-rhel9 镜像流在 OpenShift AI UI 中启用它。如需更多信息,请参阅 构建 RStudio 服务器工作台镜像

重要

免责声明: 红帽支持在 OpenShift AI 中管理工作台。但是,红帽不为 RStudio 软件提供支持。RStudio 服务器可以通过 r Studio.org 提供,并遵循其许可条款。在使用此示例工作台前,您应该查看其许可条款。

CUDA - RStudio Server workbench 镜像

使用 CUDA - RStudio Server workbench 镜像,您可以访问 RStudio IDE 和 NVIDIA CUDA Toolkit。RStudio IDE 是用于统计计算和图形的 R 编程语言的集成开发环境。使用 NVIDIA CUDA 工具包,您可以使用 GPU 加速的库和优化工具来增强您的工作。

要使用 CUDA - RStudio Server workbench 镜像,您必须首先通过创建 secret 并触发 BuildConfig 来构建它,然后通过编辑 r Studio-rhel9 镜像流在 OpenShift AI UI 中启用它。如需更多信息,请参阅 构建 RStudio 服务器工作台镜像

重要

免责声明: 红帽支持在 OpenShift AI 中管理工作台。但是,红帽不为 RStudio 软件提供支持。RStudio 服务器可以通过 r Studio.org 提供,并遵循其许可条款。在使用此示例工作台前,您应该查看其许可条款。

CUDA - RStudio Server workbench 镜像包含 NVIDIA CUDA 技术。CUDA Toolkit 文档中提供了 CUDA 许可信息。在使用此示例工作台前,您应该查看其许可条款。

支持非常大型模型的多节点部署
当使用单模式服务运行时,在多个图形处理单元(GPU)节点上提供模型现在作为技术预览提供。在多个 GPU 节点间部署模型,以便在部署大型语言模型(LLM)时提高效率。如需更多信息,请参阅 使用多个 GPU 节点部署模型

第 5 章 开发人员预览功能

重要

本节介绍 Red Hat OpenShift AI 3.0 中的开发人员技术预览功能。Developer Preview(开发人员预览)功能不被红帽支持,其功能可能并不完善且不是生产环境就绪。不要将开发人员预览功能用于生产环境或业务关键型工作负载。开发人员预览功能在红帽产品产品中包括早期对功能的访问。客户可以使用这些功能在开发过程中测试并提供反馈。开发人员预览功能可能没有任何文档,可以随时更改或删除,并且已获得有限的测试。红帽可能会提供在没有关联 SLA 的情况下提交对开发人员预览功能的反馈。

有关红帽开发人员预览功能的支持范围的更多信息,请参阅 开发人员预览支持范围

模型即服务(MaaS)集成

此功能作为开发者预览提供。

OpenShift AI 现在包括模型即服务(MaaS),以解决与服务大型语言模型(LLM)相关的资源消耗和管理挑战。

MaaS 通过受管 API 端点公开模型来提供对模型访问和资源使用情况的集中控制,让管理员能够在不同团队间强制实施消费策略。

此开发者预览引入了以下功能:

AI 可用资产与模型即服务(MaaS)集成.

此功能作为开发者预览提供。

现在,您可以从 GenAI Studio 中的 AI Available Assets 页面直接访问和使用 Model-as-a-Service (MaaS)模型。

管理员可以通过在 Model Deployments 页面中启用切换来配置 MaaS。当模型被标记为服务时,它会变为全局状态,并在集群中的所有项目中可见。

在 Model Deployments for AI Available Assets 集成中添加了其他字段

此功能作为开发者预览提供。

管理员现在可以在部署期间将元数据添加到模型,以便它们会在 AI Available Assets 页面中自动列出。

下表描述了新的元数据字段,可简化由其他团队发现并可使用的新元数据字段:

Expand
字段名称字段类型描述

使用案例

自由格式文本

描述模型的主要目的,例如 "Customer Churn Prediction" 或 "Image Classification for Product Catalog"。

描述

自由格式文本

为模型提供更详细的上下文和功能说明。

添加到 AI Assets

复选框

启用后,会自动将模型及其元数据发布到 AI Available Assets 页面。

Llama Stack 远程供应商和 SDK 与 MCP HTTP 流协议的兼容性

此功能作为开发者预览提供。

Llama Stack 远程供应商和 SDK 现在与模型控制协议(MCP) HTTP 流协议兼容。

此功能增强使开发人员能够构建完全无状态的 MCP 服务器,简化在标准 Llama Stack 基础架构(包括无服务器环境)上部署,并提高了可扩展性。它还为将来的增强功能做好准备,如连接恢复,并提供从服务器-Sent 事件(SSE)的平稳过渡。

将 ITS Hub 依赖项打包到红帽维护的 Python 索引

此功能作为开发者预览提供。

所有Inference Time Scaling (ITS)运行时依赖项现在打包在红帽维护的 Python 索引中,允许 Red Hat AI 和 OpenShift AI 客户直接使用 pip 安装 其_hub 及其依赖项。

此功能增强允许用户使用 ITS 算法构建自定义 inference 镜像,专注于提高模型准确性,而无需模型重新培训,例如:

  • 参与过滤
  • best-of-N
  • beam search
  • 自我不一致
  • verifier 或 PRM-guided 搜索

    如需更多信息,请参阅 GitHub 上的 ITS Hub

动态硬件感知式培训策略

现在,可以使用静态硬件配置文件支持来帮助用户根据 VRAM 要求和参考基准选择培训方法、型号和超线程。这种方法可确保在没有动态硬件发现的情况下可预测的、可靠的培训工作流。

包含以下组件:

  • API Memory Estimator :接受模型、培训方法、数据集元数据和假定的超参数作为输入,并返回培训工作的预期 VRAM 要求。在 Training Hub 中作为 API 提供。
  • 参考资料和基准 :为 OpenShift AInova (OSFT)和高性能团队(LAB SFT)基准提供端到端培训时间基准,在 Training Hub 中作为静态表和文档提供。
  • Hyperparameter uidance :发布关键超参数的安全开始范围,如学习速率、批处理大小、时期和 LoRA 等级。集成到由 AInova 团队维护的笔记本示例。

    重要

    这个版本不包括硬件发现。只提供静态参考表和指导;还不支持自动 GPU 或 CPU 检测。

Llama Stack 代理中的 human-in-Loop (HIL)功能

human-in-Loop (HIL)功能已添加到 Llama Stack 代理中,允许用户在执行前批准未读取的工具调用。

此功能增强包括以下功能:

  • 用户可以通过响应 API 批准或拒绝未经读取的工具调用。
  • 配置选项指定哪个工具调用需要 HIL 批准。
  • 工具调用暂停,直到收到启用了 HIL 的工具进行用户批准。
  • 不需要 HIL 的工具调用在没有中断的情况下继续运行。

第 6 章 支持删除

本节论述了对 Red Hat OpenShift AI 中面向用户的功能支持的主要更改。有关 OpenShift AI 支持的软件平台、组件和依赖项的详情,请查看 3.x 支持的配置

6.1. Deprecated

弃用了连接 Secret 的注解格式

从 OpenShift AI 3.0 开始,用于创建连接 Secret 的 opendatahub.io/connection-type-ref 注解格式已弃用。

对于所有新的连接 Secret,改为使用 opendatahub.io/connection-type-protocol 注解。虽然这两个格式目前都被支持,但 connection-type-protocol 优先,应该用于将来的兼容性。

6.1.1. 弃用了 Kubeflow Training operator v1

Kubeflow Training Operator (v1)已被弃用,从 OpenShift AI 2.25 开始,计划在以后的发行版本中删除。此弃用是我们向 Kubeflow Trainer v2 过渡的一部分,它提供增强功能并改进功能。

6.1.2. 弃用的 TrustyAI 服务 CRD v1alpha1

从 OpenShift AI 2.25 开始,v1apha1 版本已弃用,并计划在以后的发行版本中删除。您必须将 TrustyAI Operator 更新至 v1 版本,以接收将来的 Operator 更新。

6.1.3. 弃用的 KServe Serverless 部署模式

从 OpenShift AI 2.25 开始,KServe Serverless 部署模式已弃用。您可以通过迁移到 KServe RawDeployment 模式来继续部署模型。如果您要升级到 Red Hat OpenShift AI 3.0,则必须在升级前迁移所有使用已弃用 Serverless 或 ModelMesh 模式的工作负载。

6.1.4. 弃用的模型 registry API v1alpha1

从 OpenShift AI 2.24 开始,模型 registry API 版本 v1alpha1 已被弃用,并将在以后的 OpenShift AI 发行版本中删除。最新的模型 registry API 版本为 v1beta1

6.1.5. 多型号服务平台(ModelMesh)

从 OpenShift AI 版本 2.19 开始,基于 ModelMesh 的多模式服务平台已弃用。您可以继续在多模式服务平台上部署模型,但建议您迁移到单一模式服务平台。

如需了解更多相关信息,或有关使用单一模式服务平台的帮助,请联系您的客户经理。

从 OpenShift AI 3.0 开始,加速器配置集和工作台的 Container Size 选择器已弃用。

+ 这些功能将被更灵活和统一的硬件配置文件功能替代。

6.1.7. 弃用的 OpenVINO Model Server (OVMS)插件

OpenVINO Model Server (OVMS)的 CUDA 插件现已弃用,并将在以后的 OpenShift AI 版本中可用。

在以前的版本中,集群管理员使用 OdhDashboardConfig 资源中的 groupsConfig 选项来管理可以访问 OpenShift AI 仪表板的 OpenShift 组(管理员和非管理员用户)。从 OpenShift AI 2.17 开始,此功能已移至 Auth 资源。如果您有与 OdhDashboardConfig 交互的工作流(如 GitOps 工作流),您必须更新它们以引用 Auth 资源。

Expand
表 6.1. 更新的配置
资源2.16 及更早版本2.17 及更新的版本

apiVersion

opendatahub.io/v1alpha

services.platform.opendatahub.io/v1alpha1

kind

OdhDashboardConfig

Auth

name

odh-dashboard-config

auth

管理员组

spec.groupsConfig.adminGroups

spec.adminGroups

用户组

spec.groupsConfig.allowedGroups

spec.allowedGroups

6.1.9. 弃用的集群配置参数

当使用 CodeFlare SDK 在 Red Hat OpenShift AI 中运行分布式工作负载时,Ray 集群配置中的以下参数现已弃用,并应替换为所示的新参数。

Expand
弃用的参数被替换

head_cpus

head_cpu_requests, head_cpu_limits

head_memory

head_memory_requests, head_memory_limits

min_cpus

worker_cpu_requests

max_cpus

worker_cpu_limits

min_memory

worker_memory_requests

max_memory

worker_memory_limits

head_gpus

head_extended_resource_requests

num_gpus

worker_extended_resource_requests

根据情况,您还可以使用新的 extended_resource_mappingoverwrite_default_resource_mapping 参数。有关这些新参数的更多信息,请参阅 CodeFlare SDK 文档 (外部)。

6.2. 删除的功能

Caikit-NLP 组件已删除

caikit-nlp 组件已正式弃用并从 OpenShift AI 3.0 中删除。

OpenShift AI 不再包含和支持此运行时。用户应将任何依赖工作负载迁移到受支持的模型服务运行时。

TGIS 组件已删除

OpenShift AI 2.19 中已弃用的 TGIS 组件已在 OpenShift AI 3.0 中删除。

TGIS 继续通过 OpenShift AI 2.16 延长更新支持(EUS)生命周期支持,其生命周期于 2025 年 6 月结束。

从这个版本开始,TGIS 不再可用或支持。用户应将其模型服务工作负载迁移到受支持的运行时,如 Caikit 或 Caikit-TGIS。

AppWrapper Controller 被删除

作为更广泛的代码Flare Operator 删除过程的一部分,AppWrapper 控制器已从 OpenShift AI 中删除。

这个变化消除了冗余的功能,并降低维护开销和架构复杂性。

6.2.1. 删除 CodeFlare Operator

从 OpenShift AI 3.0 开始,删除了 CodeFlare Operator。

+ 以前由 CodeFlare Operator 提供的功能现在包括在 KubeRay Operator 中,它提供对应的功能,如 mTLS、网络隔离和身份验证。

删除了 LAB-tuning 功能

从 OpenShift AI 3.0 开始,删除了 LAB-tuning 功能。

对于大型语言模型自定义依赖 LAB-tuning 的用户,应该迁移到其他微调或模型自定义方法。

删除了嵌入式 Kueue 组件

OpenShift AI 2.24 中删除了嵌入的 Kueue 组件(在 OpenShift AI 2.24 中已弃用)。

OpenShift AI 现在使用红帽构建的 Kue Operator 在分布式培训、工作台和模型为工作负载提供增强的工作负载调度。

嵌入的 Kueue 组件不支持任何延长更新支持(EUS)版本。

删除 DataSciencePipelinesApplication v1alpha1 API 版本

DataSciencePipelinesApplication 自定义资源的 v1alpha1 API 版本(datasciencepipelinesapplications.opendatahub.io/v1alpha1)已被删除。

OpenShift AI 现在使用 stable v1 API 版本(datasciencepipelinesapplications.opendatahub.io/v1)。

您必须更新任何现有清单或自动化以引用 v1 API 版本,以确保与 OpenShift AI 3.0 及更新版本兼容。

6.2.2. Microsoft SQL Server 命令行工具删除

从 OpenShift AI 2.24 开始,Microsoft SQL Server 命令行工具(sqlcmd, bcp)已从工作台中删除。您无法再使用预安装的命令行客户端管理 Microsoft SQL Server。

6.2.3. 对 registry ML Metadata (MLMD)服务器删除模型

从 OpenShift AI 2.23 开始,MLS 元数据(MLMD)服务器已从模型 registry 组件中删除。现在,模型 registry 使用现有的模型 registry API 和数据库架构直接与底层数据库交互。这个变化简化了总体架构,并通过从 ml-metadata 组件转换到模型 registry 本身中直接访问数据库来确保模型 registry 的长期可维护性和效率。

如果您为模型 registry 部署看到以下错误,这意味着您的数据库 schema 迁移失败:

error: error connecting to datastore: Dirty database version {version}. Fix and force version.

您可以通过在流量路由到 pod 前手动将数据库从脏状态更改为 0 来解决此问题。执行以下步骤:

  1. 查找模型 registry 数据库 pod 的名称,如下所示:

    kubectl get pods -n <your-namespace> | grep model-registry-db

    <your-namespace > 替换为部署模型 registry 的命名空间。

  2. 使用 kubectl exec 在模型 registry 数据库 pod 上运行查询,如下所示:

    kubectl exec -n <your-namespace> <your-db-pod-name> -c mysql -- mysql -u root -p"$MYSQL_ROOT_PASSWORD" -e "USE <your-db-name>; UPDATE schema_migrations SET dirty = 0;"

    <your-namespace > 替换为您的模型 registry 命名空间,将 &lt ;your-db -pod-name> 替换为您在上一步中找到的 pod 名称。将 <your-db-name > 替换为您的模型 registry 数据库名称。

    这将在数据库中重置脏状态,允许模型 registry 正确启动。

6.2.4. 某些版本中没有使用嵌入的订阅频道

对于 OpenShift AI 2.8 到 2.20 和 2.22 到 3.0,不使用 嵌入的 订阅频道。您不能为那些版本的新 Operator 安装选择 嵌入式 频道。有关订阅频道的更多信息,请参阅安装 Red Hat OpenShift AI Operator

6.2.5. Anaconda 删除

Anaconda 是 Python 和 R 编程语言的开源分发。从 OpenShift AI 版本 2.18 开始,Anaconda 不再包含在 OpenShift AI 中,Anaconda 资源不再受到 OpenShift AI 的支持或管理。

如果您之前从 OpenShift AI 安装 Anaconda,集群管理员必须从 OpenShift 命令行界面中完成以下步骤来删除与 Anaconda 相关的工件:

  1. 删除包含 Anaconda 密码的 secret:

    oc delete secret -n redhat-ods-applications anaconda-ce-access

  2. 删除 Anaconda 验证 cronjob 的 ConfigMap

    oc delete configmap -n redhat-ods-applications anaconda-ce-validation-result

  3. 删除 Anaconda 镜像流:

    oc delete imagestream -n redhat-ods-applications s2i-minimal-notebook-anaconda

  4. 删除验证镜像下载的 Anaconda 作业:

    oc delete job -n redhat-ods-applications anaconda-ce-periodic-validator-job-custom-run

  5. 删除与 Anaconda cronjob 运行相关的 pod:

    oc get pods n redhat-ods-applications --no-headers=true | awk '/anaconda-ce-periodic-validator-job-custom-run*/'

对于在 Elyra 管道中运行的 Python 脚本,日志不再存储在 S3 兼容存储中。在 OpenShift AI 版本 2.11 中,您可以在 OpenShift AI 仪表板的管道日志查看这些日志。

注意

要使此更改生效,您必须使用 2024.1 或更高版本的工作台镜像中提供的 Elyra 运行时镜像。

如果您有一个旧的工作台镜像版本,请将 Version 选择 字段更新为兼容工作台镜像版本,例如 2024.1,如 更新项目工作台 中所述。

更新工作台镜像版本会清除管道的任何现有运行时镜像选择。在更新了工作台版本后,打开工作台 IDE 并更新管道的属性以选择运行时镜像。

6.2.7. 不再使用 Beta 订阅频道

从 OpenShift AI 2.5 开始,不再使用 beta 订阅频道。不再可以为 Operator 的新安装选择 beta 频道。有关订阅频道的更多信息,请参阅安装 Red Hat OpenShift AI Operator

6.2.8. HabanaAI workbench 镜像删除

删除了对 HabanaAI 1.10 工作台镜像的支持。来自 2.14 版本的新 OpenShift AI 安装不包括 HabanaAI workbench 镜像。但是,如果您从以前的版本升级 OpenShift AI,则 HabanaAI workbench 镜像仍然可用,现有的 HabanaAI workbench 镜像将继续正常工作。

第 7 章 已解决的问题

在 Red Hat OpenShift AI 3.0 中解决了以下显著问题。Red Hat OpenShift AI 3.0 的安全更新、程序错误修正和增强将会以异步勘误的形式发布。所有 OpenShift AI 勘误公告都发布 在红帽客户门户上

7.1. 在 Red Hat OpenShift AI 3.0 中解决的问题

由于运行时检测逻辑中的镜像名称不匹配,所以在仪表板上不会显示 RHOAIENG-376 86- Metrics

在以前的版本中,OpenShift AI 仪表板中不会显示指标,因为运行时检测系统无法正确识别基于摘要的镜像名称。此问题会影响 OpenShift AI 2.25 及之后的版本中的所有 InferenceService 部署。这个问题已解决。

在 3.0.0 的 IBM Power 上无法访问 RHOAIENG-37492 - Dashboard 控制台链接

在以前的版本中,在 IBM Power 上运行的私有云部署中,当 DataScienceCluster 配置中启用了仪表板时,OpenShift AI 仪表板链接在 OpenShift 控制台中不可见。因此,用户无法在手动创建路由的情况下通过控制台访问仪表板。这个问题已解决。

对于从未登录到仪表板的用户,RHOAIENG-1152 - Basic workbench 创建过程会失败

从 OpenShift AI 3.0 开始,此问题现已过时。基本工作台创建过程已更新,此行为不再发生。

第 8 章 已知问题

本节介绍了 Red Hat OpenShift AI 3.0 中已知的问题,以及所有已知问题的方法。

OpenStack 和私有云环境中所需的 RHOAIENG-37228 - Manual DNS 配置

当在 OpenStack、CodeReady Containers (CRC)或其他没有集成外部 DNS 的私有云环境中部署 OpenShift AI 3.0 时,对组件(如仪表板和工作台)的外部访问可能会在安装后失败。这是因为动态置备的 LoadBalancer 服务不会自动在外部 DNS 中注册其 IP 地址。

临时解决方案
要恢复访问,请在外部 DNS 系统中手动创建所需的 A 或 CNAME 记录。具体步骤请参阅 在 OpenStack 和私有云上为 RHOAI 3.x 配置外部 DNS 知识库文章。

RHOAIENG-38658- TrustyAI 服务在对 IBM Z (s390x)上的令牌身份验证进行模型推测期间,

在 IBM Z (s390x)架构中,当启用令牌身份验证时,TrustyAI 服务会在模型推测期间遇到错误。当登录到 TrustyAI 服务日志记录器时,会显示一个 JsonParseException,从而导致 bias 监控进程意外失败或行为。

临时解决方案
在不进行身份验证的情况下运行 TrustyAI 服务。只有在启用令牌身份验证时,才会出现这个问题。

RHOAIENG-38333 - Code 由 generateive AI Playground 生成的无效,且工作台中缺少所需的软件包

在 OpenShift AI workbench 中运行时,由 generateive AI Playground 自动生成的代码可能会导致语法错误。此外,LlamaStackClient 软件包目前不包含在标准工作台镜像中。

RHOAIENG-38263 - Intermittent 失败,在 IBM Z 的 Hugging Face 运行时上的 Guardrails Detector 模型

在 IBM Z 平台上,在 Hugging Face 运行时上运行的 Guardrails Detector 模型可能会间歇性地处理相同的请求。在某些情况下,之前返回的有效结果的请求会失败,并显示类似以下示例的 parse 错误:

Invalid numeric literal at line 1, column 20

此错误可能会导致服务 Pod 临时进入 CrashLoopBackOff 状态,尽管它通常会自动恢复。

临时解决方案
无。pod 会自动重启并恢复正常操作。

RHOAIENG-38253 - Distributed Inference Server with llm-d not listed in the Serving Runtimes 页

虽然部署模型时 带有 llm-d 的分布式 Inference Server 显示为可用选项,但它不会在 Settings 部分下的 Serving Runtimes 页面中列出。

这是因为 具有 llm-d 的分布式推测服务器 是一个复合部署类型,包括标准服务运行时之外的其他组件。因此,它不会出现在管理员可见的服务运行时列表中,目前无法在最终用户中隐藏。

临时解决方案
无。带有 llm-d 选项的分布式保险服务器 仍然可以用于模型部署,但不能在 Serving Runtimes 页面中管理或查看。

RHOAIENG-38252 - Model Registry Operator 无法用于 OpenShift 4.20 上的 BYOOps 模式

在配置了 Bring Your Own Identity Provider (BYO collaborate)模式的 OpenShift 4.20 集群中,部署 Model Registry Operator 会失败。

当您创建 ModelRegistry 自定义资源时,它无法访问 available: True 状态。相反,资源会显示类似以下示例的状态:

status:
  conditions:
  - lastTransitionTime: "2025-11-06T22:09:04Z"
    message: 'unexpected reconcile error: failed to get API group resources: unable to retrieve the complete list of server APIs: user.openshift.io/v1: the server could not find the requested resource'
    reason: DeploymentUnavailable
    status: "False"
    type: Available
临时解决方案
无。

当在 OpenShift 4.20 中使用 BYO EgressIP 模式时,您无法创建和部署 Model Registry 实例。

RHOAIENG-38 180- Workbench 请求到功能存储服务会导致证书错误

使用默认配置时,Feature Store (Feast)部署缺少所需的证书和服务端点。因此,工作台无法使用 Feast SDK 将请求发送到 Feature Store。

临时解决方案
删除现有的 FeatureStore 自定义资源(CR),然后使用以下配置创建新资源:
registry:
  local:
    server:
      restAPI: false

在 Feature Store pod 开始运行后,编辑同一 CR 来设置 registry.local.server.restAPI: true,并在不删除 CR 的情况下保存它。验证命名空间中是否同时创建了 REST 和 gRPC 服务,并等待 pod 重启并就绪。

RHOAIENG-37916 - LLM-D 部署模型在 Deployments 页面中显示失败状态

使用 {llm-d} 部署的模型最初在 OpenShift AI 仪表板的 Deployments 页面中显示 Failed 状态,即使关联的 pod 日志没有报告任何错误或失败。

若要确认部署的状态,可使用 OpenShift 控制台监控项目中的容器集。当模型就绪时,OpenShift AI 仪表板将状态更新为 Started

临时解决方案
等待模型状态自动更新,或检查 OpenShift 控制台中的 pod 状态,以验证模型是否已成功启动。

RHOAIENG-37882 - Custom workbench (AnythingLLM)无法加载

部署自定义工作台,如 AnythingLLM 1.8.5 可能无法完成加载。从 OpenShift AI 3.0 开始,所有工作台必须与 Kubernetes 网关 API 的基于路径的路由兼容。不支持此要求的自定义工作台镜像无法正确加载。

临时解决方案
通过从 ${NB_PREFIX} 路径提供所有内容(例如 /notebook/<namespace>/<workbench-name>),来更新您的自定义工作台镜像以支持基于路径的路由。到此前缀之外的路径(如 /index.html/api/data)的请求不会路由到工作台容器。

修复现有的工作台:

  • 更新您的应用程序以在 ${NB_PREFIX}/.. 路径中处理请求。
  • 在框架中配置基本路径,例如: FastAPI (root_path=os.getenv ('NB_PREFIX', ''))
  • 更新 nginx,以在重定向中保留前缀。
  • 实施在以下位置返回 HTTP 200 的健康端点:${NB_PREFIX}/api、 ${NB_PREFIX}/api /kernels${NB_PREFIX}/api/terminals
  • 使用相对 URL 并删除所有硬编码的绝对路径,如 /menu

如需更多信息,请参阅迁移指南: 网关 API 迁移指南

因为名称长度限制,来自 Model Catalog 的 RHOAIENG-378 55- Model 部署会失败

当从 Model Catalog 部署某些模型时,部署可能会静默失败,并处于 Starting 状态。出现这个问题的原因是,当生成的对象名称超过 63 个字符限制时,KServe 无法从 InferenceService 创建部署。

Example
尝试部署模型 RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-FP8-dynamic 会导致 KServe 试图创建名为 isvc.redhataimistral-small-31-24b-instruct-2503-fp8-dynamic-predictor 的部署,其具有 69 个字符并超过允许的最大长度。
临时解决方案
使用较短的模型名称或重命名 InferenceService,以确保生成的对象名称保留在 63 个字符限制中。

RHOAIENG-378 42- Ray 工作负载需要 ray.init (),无法触发 OpenShift AI

需要 ray.init () 的工作负载无法在 OpenShift AI 环境外触发。这些工作负载必须从 OpenShift 中的 OpenShift AI 上运行的工作台或管道内提交。不支持在外部运行这些工作负载,并导致初始化失败。

临时解决方案
仅在 OpenShift AI workbench 或管道上下文中调用 ray.init () 的工作负载。

RHOAIENG-37743 - 启动工作台时没有显示进度条

在启动工作台时,Workbench Status 屏幕中的 Progress 选项卡不会显示逐步进度。相反,它会显示一个通用消息,表示"Steps 可能会以不同顺序重复或发生"。

临时解决方案
要查看详细进度信息,请打开 Event Log 选项卡,或使用 OpenShift 控制台查看与工作台关联的 pod 详情。

RHOAIENG-37667 - Model-as-Service (MaaS)仅适用于 LLM-D 运行时

目前,模型即服务(MaaS)仅支持通过 分布式推测服务器(llm-d runtime)部署的模型。使用 vLLM 运行时部署的模型目前无法由 MaaS 提供。

临时解决方案
无。将 llm-d 运行时用于需要 Model-as-a-Service 功能的部署。

RHOAIENG-37561 - Dashboard 控制台链接无法访问 3.0.0 中的 IBM Z 集群的 OpenShift AI

当尝试使用 IBM Z 集群上的控制台链接访问 OpenShift AI 3.0.0 仪表板时,连接会失败。

临时解决方案
通过应用以下 YAML 文件来创建到网关链接的路由:
apiVersion: route.openshift.io/v1
kind: Route
metadata:
  name: data-science-gateway-data-science-gateway-class
  namespace: openshift-ingress
spec:
  host: data-science-gateway.apps.<baseurl>
  port:
    targetPort: https
  tls:
    termination: passthrough
  to:
    kind: Service
    name: data-science-gateway-data-science-gateway-class
    weight: 100
  wildcardPolicy: None

RHOAIENG-37259 - IBM Z (s390x)不支持 Elyra Pipelines

Elyra Pipelines 依赖于 Data Science Pipelines (DSP)进行编配和验证。因为 IBM Z 上目前不提供 DSP,所以会跳过与 Elyra 管道相关的功能和测试。

临时解决方案
无。当在 IBM Z 上启用并验证 DSP 支持后,Elyra Pipelines 可以正常工作。

RHOAIENG-37015- TensorBoard 报告在 PyTorch 2.8 培训镜像中失败

当使用 TensorBoard 报告使用 SFTTrainer 和镜像 registry.redhat.io/rhoai/odh-training-cuda128-torch28-py312-rhel9:rhoai-3.0,或者在培训配置中省略 report_to 参数时,培训作业会失败,并显示 JSON 序列化错误。

临时解决方案
安装最新版本的 转换器trl 软件包,并在培训配置中将 torch_dtype 参数更新为 dtype

如果使用 Training Operator SDK,您可以使用 create_job 函数中的 packages_to_install 参数指定要安装的软件包:

packages_to_install=[
    "transformers==4.57.1",
    "trl==0.24.0"
]

当没有连接时,在模型部署中缺少 RHOAIENG-36757 - 现有集群存储选项

当在没有定义数据连接的项目中创建模型部署时,不会显示 Existing cluster storage 选项,即使项目中存在适当的持久性卷声明(PVC)。这可防止您为模型部署选择现有 PVC。

临时解决方案
在项目中创建类型为 URI 的一个连接,使 现有集群存储选项 出现。

RHOAIENG-310 71- Parquet datasets 不支持 IBM Z (s390x)

某些内置评估任务,如 arc_easyarc_challenge,使用 Hugging Face 以 Parquet 格式提供的数据集。IBM Z 不支持 Parquet。

临时解决方案
无。要评估 IBM Z 上的模型,请使用支持格式而不是 Parquet 的数据集。

RHAIENG-1795 - 带有 Ray 的 CodeFlare 无法使用网关

当运行以下命令时,输出表示 Ray 集群已创建并正在运行,但单元永远不会完成,因为网关路由无法正确响应:

cluster.up()
cluster.wait_ready()

因此,获取 Ray 集群或获取作业客户端等后续操作会失败,从而导致作业提交至集群。

临时解决方案
无。当通过 CodeFlare 创建时,Ray Dashboard 网关路由无法正常工作。

在使用 Kubernetes 管道存储时,RHAIENG-1796 - Pipeline 名称必须是与 DNS 兼容

当使用 Kubernetes 作为管道的存储后端时,Elyra 不会自动将管道名称转换为与 DNS 兼容的值。如果在启动 Elyra 管道时使用非 DNS 兼容名称,则会出现类似如下的错误:

[TIP: did you mean to set 'https://ds-pipeline-dspa-robert-tests.apps.test.rhoai.rh-aiservices-bu.com/pipeline' as the endpoint, take care not to include 's' at end]
临时解决方案
在创建或运行 Elyra 管道时,请使用与 DNS 兼容的名称。

RHAIENG-11 39-Cannot deploy LlamaStackDistribution,在多个命名空间中具有相同名称

如果您在不同命名空间中创建两个 LlamaStackDistribution 资源,则第二个资源的 ReplicaSet 无法启动 Llama Stack pod。当在命名空间间使用重复名称时,Llama Stack Operator 无法正确分配安全限制。

临时解决方案
在每个命名空间中为每个 LlamaStackDistribution 使用唯一名称。例如,包含项目名称或添加后缀,如 llama-stack-distribution-209342

RHAIENG-16 24- 在断开连接的集群中嵌入 API 超时

在断开连接的集群中,使用默认嵌入模型(ibm-granite/granite-embedding-125m-english)时,对嵌入 API 的调用可能会超时。

临时解决方案

LlamaStackDistribution 自定义资源中添加以下环境变量,以离线使用嵌入模型:

- name: SENTENCE_TRANSFORMERS_HOME
  value: /opt/app-root/src/.cache/huggingface/hub
- name: HF_HUB_OFFLINE
  value: "1"
- name: TRANSFORMERS_OFFLINE
  value: "1"
- name: HF_DATASETS_OFFLINE
  value: "1"

从 JupyterLab 运行管道时,RHOAIENG-349 23- Runtime 配置缺失

当您从项目中的第一个活跃工作台运行管道时,运行时配置可能不会出现在 Elyra pipeline 编辑器中。这是因为配置无法为初始工作台会话填充。

临时解决方案
重启工作台。重启后,运行时配置将可用于管道执行。

从 OpenShift AI 2.24 升级后,RHAIENG-350 55- Model 目录无法初始化

从 OpenShift AI 2.24 升级后,模型目录可能无法初始化和加载。OpenShift AI 仪表板显示 对模型目录错误的 Request 访问

临时解决方案

运行以下命令来删除现有模型目录 ConfigMap 和部署:

$ oc delete configmap model-catalog-sources -n rhoai-model-registries --ignore-not-found
$ oc delete deployment model-catalog -n rhoai-model-registries --ignore-not-found

使用外部 Argo 工作流时,Data Science Pipelines Operator 中的 RHAIENG-35529 - Reconciliation 问题

如果您在删除现有外部 Argo 工作流安装前启用嵌入的 Argo Workflows 控制器(rgoWorkflowsControllers: Managed),工作流控制器可能无法启动,并且 Data Science Pipelines Operator (DSPO)可能无法正确协调其自定义资源。

临时解决方案
在启用嵌入的 Argo Workflows 控制器前,从集群中删除任何现有的外部 Argo 工作流实例。

当没有连接时,在模型部署中缺少 RHAIENG-36756 - 现有集群存储选项

当在没有定义数据连接的项目中创建模型部署时,不会出现现有集群存储选项,即使 PVC 可用。因此,您无法为模型存储选择现有 PVC。

临时解决方案
在项目中至少创建一个类型为 URI 的连接。之后 ,现有集群存储选项 将变为可用。

当模型服务器大小设置为 small时,RHOAIENG-36817 - Inference 服务器会失败

当通过控制面板创建 inference 服务时,选择 模型服务器大小会导致后续不误请求失败。因此,对 inference 服务本身的部署成功,但推断请求会失败,并显示超时错误。

临时解决方案
要解决这个问题,请从下拉菜单中选择 Model server size as large

RHOAIENG-33995 - 部署 Phi 和 Mistral 模型的 inference 服务失败

在带有 openshift-container-platform 4.19 的 IBM Power 集群中使用 vLLM 运行时为 Phi 和 Mistral 模型创建 inference 服务会失败,因为与 CPU 后端相关的错误。因此,部署这些模型会受到影响,从而导致服务创建失败。

临时解决方案
要解决这个问题,如果为 CPU 和 Phi 模型启用了,在服务运行时中禁用 sliding_window 机制。V1 目前不支持 sliding 窗口。

RHOAIENG-33795 - 为 IBM Z 上的 Triton Inference Server 的 gRPC 端点验证需要手动路由创建

当验证带有 gRPC 端点的 Triton Inference Server 时,路由不会自动创建。这是因为 Operator 目前默认为 REST 创建边缘终止路由。

临时解决方案

要解决这个问题,在 IBM Z 上为 Triton Inference Server 的 gRPC 端点验证需要手动路由创建。

  1. 当模型部署 pod 启动并运行时,在 YAML 文件中定义带有以下内容的 edge-terminated Route 对象:

    apiVersion: route.openshift.io/v1
    kind: Route
    metadata:
      name: <grpc-route-name>                  # e.g. triton-grpc
      namespace: <model-deployment-namespace>  # namespace where your model is deployed
      labels:
        inferenceservice-name: <inference-service-name>
      annotations:
        haproxy.router.openshift.io/timeout: 30s
    spec:
      host: <custom-hostname>                  # e.g. triton-grpc.<apps-domain>
      to:
        kind: Service
        name: <service-name>                   # name of the predictor service (e.g. triton-predictor)
        weight: 100
      port:
        targetPort: grpc                       # must match the gRPC port exposed by the service
      tls:
        termination: edge
      wildcardPolicy: None
  2. 创建 Route 对象:

    oc apply -f <route-file-name>.yaml
  3. 要发送 inference 请求,请输入以下命令:

    grpcurl -cacert <ca_cert_file>\ 
    1
    
      -protoset triton_desc.pb \
      -d '{
        "model_name": "<model_name>",
        "inputs": [
          {
            "name": "<input_tensor_name>",
            "shape": [<shape>],
            "datatype": "<data_type>",
            "contents": {
              "<datatype_specific_contents>": [<input_data_values>]
            }
          }
        ],
        "outputs": [
          {
            "name": "<output_tensor_name>"
          }
        ]
      }' \
      <grpc_route_host>:443 \
      inference.GRPCInferenceService/ModelInfer
    1
    <ca_cert_file> 是集群路由器 CA 证书的路径(如 router-ca.crt)。
注意

<triton_protoset_file> 编译为 protobuf 描述符文件。您可以将它生成为 protoc -I. --descriptor_set_out=triton_desc.pb --include_imports grpc_service.proto

triton-inference-service GitHub 页面下载 grpc_service.protomodel_config.proto 文件。

RHOAIENG-3369 7- Unable to Edit or Delete model,除非状态为"Started"

当您在 NVIDIA NIM 或单型号服务平台上部署模型时,操作菜单中的 EditDelete 选项不适用于 StartingPending 状态中的模型。这些选项仅在成功部署模型后可用。

临时解决方案
等待模型处于 Started 状态,以便进行任何更改或删除模型。

RHOAIENG-336 45- LM-Eval Tier1 测试失败

LM-Eval Tier1 测试可能会失败,因为在运行作业时不会作为参数传递 confirm_run_unsafe_code,如果您使用 trustyai-service-operator 的旧版本。

临时解决方案
确保您使用最新版本的 trustyai-service-operator,并且启用了 AllowCodeExecution

升级后,在重启循环中 RHOAIENG-29729 - Model registry Operator

从 OpenShift AI 版本 2.22 或更早版本升级到启用了模型 registry 组件的 2.23 或更高版本后,模型 registry Operator 可能会进入重启循环。这是因为 model-registry-operator-controller-manager pod 中 manager 容器的内存限值不足。

临时解决方案

要解决这个问题,您必须为 model-registry-operator-controller-manager 部署触发协调。在部署中添加 opendatahub.io/managed='true' 注解将完成此操作并应用正确的内存限值。您可以运行以下命令来添加注解:

oc annotate deployment model-registry-operator-controller-manager -n redhat-ods-applications opendatahub.io/managed='true' --overwrite
注意

此命令覆盖 model-registry-operator-controller-manager 部署中的自定义值。有关自定义部署值的更多信息,请参阅自定义组件部署资源

在部署更新后,内存限制从 128Mi 增加到 256Mi,容器内存用量将稳定,重启循环将停止。

创建 DSCInitialization 时启用 RHOAIENG -31238- New observability 堆栈

当您删除 DSCInitialization 资源并使用 OpenShift AI 控制台表单视图创建新资源时,它启用了技术预览可观察性堆栈。这会导致在重新创建 DSCInitialization 资源时部署不需要的可观察性堆栈。

临时解决方案

要解决这个问题,请使用表单视图重新创建 DSCInitiliazation 资源时手动删除 "metrics" 和 "traces" 字段。

如果要使用技术预览可观察性堆栈,则不需要此项。

RHOAIENG-32599 - 在 IBM Z 集群上创建服务失败

当您试图在 IBM Z 集群上使用 vLLM 运行时创建 inference 服务时,会失败并显示以下错误:ValueError : 'aimv2' 已被 Transformers 配置使用,选择另一个名称

临时解决方案
无。

RHOAIENG-29731 - Inference 服务创建在带有 OpenShift 4.19 的 IBM Power 集群上失败

当您试图在 OpenShift Container Platform 版本 4.19 上的 IBM Power 集群上使用 vLLM 运行时创建 inference 服务时,它会失败,因为与 Non-Uniform Memory Access (NUMA)相关的错误。

临时解决方案
当您创建 inference 服务时,请将环境变量 VLLM_CPU_OMP_THREADS_BIND 设置为 所有

由于使用统计目录访问,RHOAIENG-29292 - vLLM 会在 IBM Z 上记录权限错误

在 IBM Z 架构上运行 vLLM 时,inference 服务可以成功启动,但在与用量统计报告相关的后台线程中记录错误。这是因为服务试图将使用量数据写入一个受限位置(/.config),而这没有权限访问。

以下错误会出现在日志中:

Exception in thread Thread-2 (_report_usage_worker):
Traceback (most recent call last):
 ...
PermissionError: [Error 13] Permission denied: '/.config'
临时解决方案
要防止这个错误并阻止使用统计日志记录,请在 inference 服务部署中设置 VLLM_NO_USAGE_STATS=1 环境变量。这会禁用自动使用报告,避免在写入系统目录时的权限问题。

RHOAIENG-24545 - Runtime 镜像在第一次启动后不会出现在工作台中

运行时镜像列表无法正确填充命名空间中的第一个运行工作台实例,因此 Elyra pipeline 编辑器中没有显示镜像进行选择。

临时解决方案
重启工作台。重启工作台后,运行时镜像列表会填充工作台和 Elyra 管道编辑器的选择框。

当请求的资源超过阈值时,不会显示 RHOAIENG-2020 9- Warning 信息

当您点 Distributed workloadsProject metrics 并查看 Requested resources 部分时,图表会显示请求的资源值以及每个资源(CPU 和内存)的总共享配额值。但是,当 Requested by all projects 值超过该资源的 Warning 阈值时,不会显示预期的警告信息。

临时解决方案
无。

SRVKS-1301 (以前称为 RHOAIENG-18590)- KnativeServing 资源在禁用并启用 KServe 后会失败

在 DataScienceCluster 中禁用并启用 kserve 组件后,KnativeServing 资源可能会失败。

临时解决方案

删除所有与 Knative 相关的 ValidatingWebhookConfigurationMutatingWebhookConfiguration Webhook:

  1. 获取 Webhook:

    oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
  2. 确保禁用 KServe。
  3. 获取 Webhook:

    oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
  4. 删除 webhook。
  5. 启用 KServe。
  6. 验证 KServe pod 可以成功生成,并且 knative-serving 命名空间中的 pod 是否活跃且可操作。

从 OpenShift AI 仪表板启动时,RHOAIENG-16247 - Elyra pipeline run 输出会被覆盖

当管道创建并从 Elyra 运行时,管道运行生成的输出存储在对象存储的文件夹 bucket-name/pipeline-name-timestamp 中。

当从 Elyra 创建管道并且管道运行从 OpenShift AI 仪表板启动时,不会更新时间戳值。这可能导致管道运行覆盖之前同一管道运行创建的文件。

此问题不会影响使用 OpenShift AI 仪表板编译和导入的管道,因为 runid 始终添加到对象存储中使用的文件夹中。有关 AI 管道中使用的存储位置的更多信息,请参阅使用管道存储数据

临时解决方案
将文件存储在 Elyra 管道中时,在每个管道运行上使用不同的子文件夹名称。

在断开连接的环境中不支持 OCPBUGS-49422 - AMD GPU 和 AMD ROCm workbench 镜像

此 OpenShift AI 发行版本不支持在断开连接的环境中的 AMD GPU 和 AMD ROCm workbench 镜像,因为安装 AMD GPU Operator 需要访问互联网来获取编译 GPU 驱动程序所需的依赖项。

临时解决方案
无。

RHOAIENG-7716 - Pipeline 条件组状态不会更新

当您运行具有循环(dsl.ParallelFor)或条件组(dsl.lf)的管道时,UI 会为循环和组显示一个 Running 状态,即使在管道执行完成后也是如此。

临时解决方案

您可以通过检查没有子任务保持活动状态来确认管道是否仍在运行。

  1. 从 OpenShift AI 仪表板,点 Development & trainingPipelinesRuns
  2. Project 列表中点击您的数据科学项目。
  3. Runs 选项卡中,点您要检查状态的管道运行。
  4. 展开 condition 组,再单击子任务。

    此时会显示包含子任务信息的面板

  5. 在面板中点 Task details 选项卡。

    Status 字段显示子任务的正确状态。

RHOAIENG-6409 - Cannot save 参数 错误会出现在管道日志中成功运行

当您多次运行管道时,Cannot save 参数 错误会出现在管道日志中成功运行。您可以安全地忽略这些错误。

临时解决方案
无。

RHOAIENG-3025 - OVMS 预期目录布局与 KServe StoragePuller 布局冲突

当您使用 OpenVINO 模型服务器(OVMS)运行时在单模式服务平台(使用 KServe)上部署模型时,OVMS 预期的目录布局与 KServe 使用的目录布局之间不匹配。具体来说,OVMS 要求模型文件位于 /< mnt>/models/1/ 目录中,而 KServe 则将它们放置在 /< mnt>/models/ 目录中。

临时解决方案

执行以下操作:

  1. 在 S3 兼容存储桶中,将您的模型文件放在名为 1/ 的目录中,例如 /< s3_storage_bucket>/models/1/<model_files >。
  2. 要使用 OVMS 运行时在单型号服务平台上部署模型,请选择以下选项之一来指定模型文件的路径:

    • 如果您使用 OpenShift AI 仪表板来部署模型,在数据连接的 Path 字段中,使用 /< s3_storage_bucket>/models/ 格式来指定模型文件的路径。不要将 1/ 目录指定为路径的一部分。
    • 如果您要创建自己的 InferenceService 自定义资源来部署模型,请将 storageURI 字段的值配置为 /< s3_storage_bucket>/models/。不要将 1/ 目录指定为路径的一部分。

KServe 从您指定的路径中的子目录拉取模型文件。在这种情况下,KServe 可以正确地从 S3 兼容存储中的 /& lt;s3_storage_bucket>/models/1/ 目录中拉取模型文件。

KServe 上的 RHOAIENG-30 18- OVMS 在仪表板中不会公开正确的端点

当您使用 OpenVINO 模型服务器(OVMS)运行时在单模式服务平台上部署模型时,部署模型的 Inference endpoint 字段中显示的 URL 不完整。

临时解决方案
要将查询发送到模型,您必须将 /v2/models/_<model-name>_/infer 字符串添加到 URL 的末尾。将 _<model-name>_ 替换为部署的模型的名称。

RHOAIENG-222 8- 当间隔设置为 15 秒时,性能指标图会持续变化

在模型指标屏幕的 Endpoint 性能 选项卡中,如果您将 Refresh interval 设为 15 秒,且 Time range 设为 1 小时,则图形结果会持续更改。

临时解决方案
无。

RHOAIENG-2183 - Endpoint 性能图可能会显示不正确的标签

在模型指标屏幕的 Endpoint 性能 选项卡中,图形工具提示可能会显示不正确的标签。

临时解决方案
无。

在 InferenceService 报告为 Loaded 后,RHOAIENG-131 - gRPC 端点没有正确响应

当生成了大量 InferenceService 实例时,Service Mesh Control Plane (SMCP)将变为无响应。InferenceService 实例的状态为 Loaded,但调用 gRPC 端点会返回错误。

临时解决方案
编辑 ServiceMeshControlPlane 自定义资源(CR)以增加 Istio egress 和 ingress pod 的内存限值。

RHOAIENG-1619 (以前称为 DATA-SCIENCE-PIPELINES-165))- S3 存储桶不可写入时的 Poor 错误消息

当您设置数据连接时,且 S3 存储桶不可写入,而您尝试上传管道时,错误消息 Failed to store pipelines 并不有用。

临时解决方案
验证您的数据连接凭证是否正确,并且您具有对您指定的存储桶的写权限。

RHOAIENG-1207 (以前称为 ODH-DASHBOARD-1758)- 多次复制 OOTB 自定义服务运行时错误

如果您多次重复模型保留运行时,重复会失败,并显示 Serving 运行时名称 "<name>" already exists 错误信息。

临时解决方案
metadata.name 字段更改为一个唯一值。

RHOAIENG-133 - 现有工作台无法在工作台重启后运行 Elyra 管道

如果您使用 Elyra JupyterLab 扩展在 JupyterLab 中创建并运行管道,并在创建工作台 配置管道服务器,并在工作台中指定工作台镜像后,您无法执行管道,即使在重启工作台后也无法执行管道。

临时解决方案
  1. 停止正在运行的工作台。
  2. 编辑工作台以进行小修改。例如,添加新的 dummy 环境变量,或删除现有的不必要的环境变量。保存您的更改。
  3. 重启工作台。
  4. 在 JupyterLab 左侧边栏中,单击 Runtimes
  5. 确认选择了默认运行时。

RHODS-12798 - Pod 失败并显示 "unable to init seccomp" 错误

Pod 会失败,并显示 CreateContainerError 状态或 Pending 状态而不是 Running 状态,因为已知内核错误引入了 seccomp 内存泄漏。当您检查 pod 失败的命名空间中的事件时,或运行 oc describe pod 命令时,会出现以下错误:

runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524
临时解决方案
增加 net.core.bpf_jit_limit 的值,如红帽知识库解决方案 Pod 失败,并将 seccomp 过滤器错误加载到 OpenShift 4 中的 kernel: errno 524

KUBEFLOW-177 - Bearer 令牌来自没有由 OAuth-proxy 转发的应用程序

如果应用程序基于 bearer 令牌,则无法将应用程序用作自定义工作台镜像。OAuth-proxy 配置从标头中删除 bearer 令牌,应用程序无法正常工作。

临时解决方案
无。

如果您已经从 OpenShift AI 仪表板注销,KUBEFLOW-157 - logging out of JupyterLab 无法正常工作

如果您在从 JupyterLab 注销前注销 OpenShift AI 仪表板,则注销 JupyterLab 将无法成功。例如,如果您知道 Jupyter 笔记本的 URL,您可以在浏览器中再次打开它。

临时解决方案
在从 OpenShift AI 仪表板注销前,先从 JupyterLab 注销。

RHODS- 7718- 没有仪表板权限的用户可以无限期地使用其正在运行的工作台

当 Red Hat OpenShift AI 管理员撤销用户权限时,用户可以无限期地继续使用其正在运行的工作台。

临时解决方案
当 OpenShift AI 管理员撤销用户权限时,管理员还应停止该用户的任何正在运行的工作台。

RHODS-554 3- 使用 NVIDIA GPU Operator 时,Node Autoscaler 创建的节点数量要多

当因为可用资源不足而无法调度 pod 时,Node Autoscaler 将创建一个新节点。在新创建的节点接收相关 GPU 工作负载前会有一个延迟。因此,pod 无法调度,Node Autoscaler 会不断创建额外的新节点,直到其中一个节点准备好接收 GPU 工作负载。有关此问题的更多信息,请参阅红帽知识库解决方案 使用 NVIDIA GPU Operator 时,超过 Node Autoscaler 创建的节点数量

临时解决方案
machineset.spec.template.spec.metadata 中应用 cluster-api/accelerator 标签。这会导致自动扩展将这些节点视为未就绪,直到部署了 GPU 驱动程序。

RHODS-4799 - Tensorboard 需要手动步骤才能查看

当用户有 TensorFlow 或 PyTorch workbench 镜像,并希望使用 TensorBoard 显示数据,需要手动步骤在工作台环境中包含环境变量,并在您的代码中导入这些变量。

临时解决方案

当您启动基本工作台时,使用以下代码来设置 TENSORBOARD_PROXY_URL 环境变量的值,以使用您的 OpenShift AI 用户 ID。

import os
os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"

RHODS-47 18- Intel® oneAPI AI Analytics Toolkits 快速开始引用不存在的示例笔记本

Intel® OneAPI AI Analytics Toolkits 快速开始(位于仪表板上的 Resources 页面中),要求用户以指令步骤的一部分加载示例笔记本,但引用相关存储库中不存在的笔记本。

临时解决方案
无。

RHOAING-1147 (以前称为 RHODS-2881)- 在仪表板上的操作没有明确可见

仪表板操作重新验证禁用的应用程序许可证,并删除禁用的应用程序标题对用户没有明确可见。当用户点击应用程序标题的 Disabled 标签时,会出现这些操作。因此,预期的工作流可能对用户并不明确。

临时解决方案
无。

RHODS-2096 - IBM Watson Studio 不在 OpenShift AI

当在 OpenShift Dedicated 4.9 或更高版本上安装 OpenShift AI 时,IBM Watson Studio 不可用,因为它与这些版本的 OpenShift Dedicated 不兼容。

临时解决方案
联系 红帽客户门户 以获取在 OpenShift Dedicated 4.9 及更高版本上手动配置 Watson Studio 的帮助。

第 9 章 产品特性

Red Hat OpenShift AI 为数据科学家和集群管理员提供一组丰富的功能。如需更多信息,请参阅 Red Hat OpenShift AI 简介

法律通告

Copyright © 2025 Red Hat, Inc.
The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.
Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.
Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.
Linux® is the registered trademark of Linus Torvalds in the United States and other countries.
Java® is a registered trademark of Oracle and/or its affiliates.
XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.
MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.
Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.
The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.
All other trademarks are the property of their respective owners.
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部