第 7 章 已知问题
本节介绍了 Red Hat OpenShift AI 2.22 中已知的问题,以及任何已知问题的方法。
RHOAIENG-29731 - Inference 服务创建在启用了 FIPS 的 IBM Power 集群中失败
当您试图在启用了 FIPS 的 IBM Power 集群中使用 vLLM 运行时创建 inference 服务时,它会失败,因为与 Non-Uniform Memory Access (NUMA)相关的错误。
- 临时解决方案
-
当您创建 inference 服务时,请将环境变量
VLLM_CPU_OMP_THREADS_BIND
设置为所有
。
RHOAIENG-29352 - 缺少文档和支持菜单项
在 OpenShift AI 顶部导航栏中,当您点击帮助图标(
)时,菜单仅包含 About 菜单项。文档 和支持 菜单项缺失。
- 临时解决方案
- 无。
由于使用统计目录访问,RHOAIENG-29292 - vLLM 会在 IBM Z 上记录权限错误
在 IBM Z 架构上运行 vLLM 时,inference 服务可以成功启动,但在与用量统计报告相关的后台线程中记录错误。这是因为服务试图将使用量数据写入一个受限位置(/.config
),而这没有权限访问。
以下错误会出现在日志中:
Exception in thread Thread-2 (_report_usage_worker): Traceback (most recent call last): ... PermissionError: [Error 13] Permission denied: '/.config'
Exception in thread Thread-2 (_report_usage_worker):
Traceback (most recent call last):
...
PermissionError: [Error 13] Permission denied: '/.config'
- 临时解决方案
-
要防止这个错误并阻止使用统计日志记录,请在 inference 服务部署中设置
VLLM_NO_USAGE_STATS=1
环境变量。这会禁用自动使用报告,避免在写入系统目录时的权限问题。
从 2.16 升级到 2.19 或更高版本后,RHOAIENG-289 10- Unmanaged KServe 资源会被删除
在从 OpenShift AI 2.16 升级到 2.22 的过程中,在从关联的 KServe 相关资源中完全删除 FeatureTracker
自定义资源(CR)。因此,最初由 Red Hat OpenShift AI Operator 创建的资源,其状态为 Managed
,之后在 DataScienceCluster
(DSC)自定义资源(CR)中更改为 Unmanaged
可能会被有意删除。这个问题可能会破坏模型服务功能,直到手动恢复资源为止。
如果在 2.16 中将以下资源改为 Unmanaged
,则可能会在 2.22 中删除它们:
Kind | Namespace | Name |
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 临时解决方案
如果您已经从 OpenShift AI 2.16 升级到 2.22,请执行以下操作之一:
-
如果您有现有的备份,请手动重新创建已删除的资源,而不引用
FeatureTracker
CR。 如果您没有现有的备份,可以使用 Operator 重新创建已删除的资源:
- 备份您已重新创建的所有资源。
在 DSC 中,将
spec.components.kserve.serving.managementState
设置为Managed
,然后保存更改以允许 Operator 重新创建资源。等待 Operator 重新创建资源。
-
在 DSC 中,将
spec.components.kserve.serving.managementState
设置为Unmanaged
,然后保存更改。 -
将之前的任何自定义更改重新应用到重新创建的
KnativeServing
、ServiceMeshMember
和Gateway
CR 资源。
如果您还没有升级,请在升级前执行以下操作以防止这个问题:
-
在 DSC 中,将
spec.components.kserve.serving.managementState
设置为Unmanaged
。 -
对于以上表中列出的每个受影响的
KnativeServing
、ServiceMeshMember
和Gateway
资源,通过删除FeatureTracker
所有者引用来编辑其 CR。此编辑删除了对FeatureTracker
的依赖,并防止在升级过程中删除资源。
-
如果您有现有的备份,请手动重新创建已删除的资源,而不引用
NVPE-302,NVPE-303 - Missing 存储类用于 NIM 模型
当您尝试在新安装的 OpenShift AI 集群中的 NVIDIA NIM 模型服务平台上部署 NVIDIA NIM 模型服务平台时,您可能会观察 Storage class 下拉菜单没有填充,或在 Model 部署 页面中缺失。这是因为存储类不会加载或缓存在 OpenShift AI 的新安装中的用户界面中。因此,您无法为部署配置存储。
- 临时解决方案
-
在 OpenShift AI 仪表板中点 Settings
Storage classes。不要进行任何更改。 -
点 Models
Model deployments 查看您的 NIM 模型部署。 - 单击 Deploy model。
- 在 Model deployment 页面中,Storage class 下拉菜单可见,并使用可用的存储类选项填充。
-
在 OpenShift AI 仪表板中点 Settings
RHOAIENG- 27676- Accelerator 配置集不适用于已删除的情况
如果您在创建工作台、部署或模型服务器后删除加速器配置集,Edit 页面不使用现有设置并显示错误的加速器配置集。
- 临时解决方案
- 无。
RHOAIENG-25734 - Duplicate name issue with notebook images
当您在创建工作台、部署或模型服务器并对产品范围和全局范围 Imagrestreams 使用相同的名称后,工作台会在工作台表中显示不正确的名称,并在 Edit workbench 表单中显示名称。
- 临时解决方案
- 不要将相同的名称用于项目范围和全局范围加速器配置集。
RHOAIENG- 25733- Accelerator 配置集无法使用重复名称
当您创建工作台、部署或型号,并使用与全局范围的加速器配置文件相同的名称时,Edit 页面和服务器表单在相应的表中会显示不正确的标签。
- 临时解决方案
- 不要将相同的名称用于项目范围和全局范围加速器配置集。
RHOAIENG-24545 - Runtime 镜像在第一次启动后不会出现在工作台中
运行时镜像列表无法正确填充命名空间中的第一个运行工作台实例,因此 Elyra pipeline 编辑器中没有显示镜像进行选择。
- 临时解决方案
- 重启工作台。重启工作台后,运行时镜像列表会填充工作台和 Elyra 管道编辑器的选择框。
当禁用模型注册选项时,RHOAIENG-25090 - InstructLab prerequisites-check-op
任务会失败
当您在没有选择 Add model to <model registry name> 复选框的情况下启动 LAB-tuning 运行时,InstructLab 管道启动,但 prerequisites-check-op
任务会失败,并显示 pod 日志中的以下错误:
failed: failed to resolve inputs: the resolved input parameter is null: output_model_name
failed: failed to resolve inputs: the resolved input parameter is null: output_model_name
- 临时解决方案
- 在配置 LAB-tuning 运行时,选择 Add model to <model registry name > 复选框。
当嵌套管道中使用的可选输入参数没有设置时,RHOAIENG-250 56- Data Science pipeline 任务会失败
当管道有可选输入参数时,如果没有提供这些参数的值,且嵌套管道中会使用它们的任务会失败并显示以下错误:
failed: failed to resolve inputs: resolving input parameter with spec component_input_parameter:"optional_input": parent DAG does not have input parameter optional_input
failed: failed to resolve inputs: resolving input parameter with spec component_input_parameter:"optional_input": parent DAG does not have input parameter optional_input
- 临时解决方案
- 在使用嵌套管道任务时,为所有可选参数提供值。
RHOAIENG-247 86- 在断开连接的环境中将 Authorino Operator 从技术预览升级到 Stable 会失败
在断开连接的环境中,将 Red Hat Authorino Operator 从技术预览升级到 Stable 会失败,并显示 authconfig-migrator-qqttz
pod 的错误。
- 临时解决方案
-
将 Red Hat Authorino Operator 更新至
tech-preview-v1
更新频道(v1.1.2)中的最新版本。 运行以下脚本:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
更新 Red Hat Authorino Operator 订阅以使用
stable
更新频道。 - 为 Authorino 1.2.1 选择更新选项。
-
将 Red Hat Authorino Operator 更新至
当请求的资源超过阈值时,不会显示 RHOAIENG-2020 9- Warning 信息
当您点 Distributed workloads
- 临时解决方案
- 无。
SRVKS-1301 (以前称为 RHOAIENG-18590)- KnativeServing
资源在禁用并启用 KServe 后会失败
在 DataScienceCluster 中禁用并启用 kserve
组件后,KnativeServing
资源可能会失败。
- 临时解决方案
删除所有与 Knative 相关的
ValidatingWebhookConfiguration
和MutatingWebhookConfiguration
Webhook:获取 Webhook:
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 确保禁用 KServe。
获取 Webhook:
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 删除 webhook。
- 启用 KServe。
-
验证 KServe pod 可以成功生成,并且
knative-serving
命名空间中的 pod 是否活跃且可操作。
从 OpenShift AI 仪表板启动时,RHOAIENG-16247 - Elyra pipeline run 输出会被覆盖
当管道创建并从 Elyra 运行时,管道运行生成的输出存储在对象存储的文件夹 bucket-name/pipeline-name-timestamp
中。
当从 Elyra 创建管道并且管道运行从 OpenShift AI 仪表板启动时,不会更新时间戳值。这可能导致管道运行覆盖之前同一管道运行创建的文件。
此问题不会影响使用 OpenShift AI 仪表板编译和导入的管道,因为 runid
始终添加到对象存储中使用的文件夹中。有关数据科学管道中使用的存储位置的更多信息,请参阅使用数据科学管道存储数据。
- 临时解决方案
- 将文件存储在 Elyra 管道中时,在每个管道运行上使用不同的子文件夹名称。
在断开连接的环境中不支持 OCPBUGS-49422 - AMD GPU 和 AMD ROCm workbench 镜像
此 OpenShift AI 发行版本不支持在断开连接的环境中的 AMD GPU 和 AMD ROCm workbench 镜像,因为安装 AMD GPU Operator 需要访问互联网来获取编译 GPU 驱动程序所需的依赖项。
- 临时解决方案
- 无。
RHOAIENG-12516 - fast
版本在意外的发行频道中提供
由于流镜像交付过程的一个已知问题,目前在不需要的流传输频道中提供 快速
版本,如 stable、
。如需准确的发行类型、频道和支持 生命周期信息,请参阅 Red Hat OpenShift AI Self-Managed Life Cycle 页中的生命周期日期 表。
stable
-x.y
- 临时解决方案
- 无。
当将 OpenShift AI 2.8 升级到 2.10 或更高版本时,RHOAIENG-8294 - CodeFlare 错误
如果您试图将 OpenShift AI 2.8 升级到 2.10 或更高版本,则 CodeFlare 组件会显示以下出错信息,因为 AppWrapper
自定义资源定义(CRD)版本不匹配。
ReconcileCompletedWithComponentErrors DataScienceCluster resource reconciled with component errors: 1 error occurred: * CustomResourceDefinition.apiextensions.k8s.io "appwrappers.workload.codeflare.dev" is invalid: status.storedVersions[0]: Invalid value: "v1beta1": must appear in spec.versions
ReconcileCompletedWithComponentErrors DataScienceCluster resource reconciled with component errors: 1 error occurred: * CustomResourceDefinition.apiextensions.k8s.io "appwrappers.workload.codeflare.dev" is invalid: status.storedVersions[0]: Invalid value: "v1beta1": must appear in spec.versions
- 临时解决方案
删除现有的
AppWrapper
CRD:oc delete crd appwrappers.workload.codeflare.dev
$ oc delete crd appwrappers.workload.codeflare.dev
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 等待大约 20 秒,然后确保自动应用新的
AppWrapper
CRD,如下例所示:oc get crd appwrappers.workload.codeflare.dev
$ oc get crd appwrappers.workload.codeflare.dev NAME CREATED AT appwrappers.workload.codeflare.dev 2024-11-22T18:35:04Z
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-7716 - Pipeline 条件组状态不会更新
当您运行具有循环(dsl.ParallelFor
)或条件组(dsl.lf
)的管道时,UI 会为循环和组显示一个 Running 状态,即使在管道执行完成后也是如此。
- 临时解决方案
您可以通过检查没有子任务保持活动状态来确认管道是否仍在运行。
-
在 OpenShift AI 仪表板中点 Data Science Pipelines
Runs。 - 在 Project 列表中点击您的数据科学项目。
- 在 Runs 选项卡中,点您要检查状态的管道运行。
展开 condition 组,再单击子任务。
此时会显示包含子任务信息的面板
在面板中点 Task details 选项卡。
Status 字段显示子任务的正确状态。
-
在 OpenShift AI 仪表板中点 Data Science Pipelines
RHOAIENG-6409 - Cannot save 参数
错误会出现在管道日志中成功运行
当您使用数据科学管道 2.0 多次运行管道时,Cannot save 参数
错误会出现在管道日志中成功运行。您可以安全地忽略这些错误。
- 临时解决方案
- 无。
RHOAIENG-12294 (以前称为 RHOAIENG-4812))- 分布式工作负载指标排除 GPU 指标
在这个 OpenShift AI 发行版本中,分布式工作负载指标排除 GPU 指标。
- 临时解决方案
- 无。
RHOAIENG-4570 - 现有 Argo 工作流与安装或升级冲突
Data Science pipelines 2.0 包含 Argo 工作流的安装。红帽不支持直接使用 Argo 工作流安装。要安装或升级带有数据科学管道 2.0 的 OpenShift AI,请确保在集群中没有 Argo 工作流安装。如需更多信息,请参阅 迁移到数据科学管道 2.0。
- 临时解决方案
-
删除现有的 Argo 工作流安装,或将
datasciencepipelines
设置为Removed
,然后执行安装或升级。
RHOAIENG-3913 - Red Hat OpenShift AI Operator 错误地显示 False
的 Degraded
条件并带有错误
如果您在 OpenShift AI Operator 使用的 DataScienceCluster (DSC)对象中启用了 KServe 组件,但没有安装依赖的 Red Hat OpenShift Service Mesh 和 Red Hat OpenShift Serverless Operator,则 DSC 对象中的 kserveReady
条件会显示 KServe 未就绪。但是,Degraded
条件会错误地显示 False
的值。
- 临时解决方案
- 安装 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh Operator,然后重新创建 DSC。
RHOAIENG-3025 - OVMS 预期目录布局与 KServe StoragePuller 布局冲突
当您使用 OpenVINO 模型服务器(OVMS)运行时在单模式服务平台(使用 KServe)上部署模型时,OVMS 预期的目录布局与 KServe 使用的目录布局之间不匹配。具体来说,OVMS 要求模型文件位于 /< mnt>/models/1/
目录中,而 KServe 则将它们放置在 /< mnt>/models/
目录中。
- 临时解决方案
执行以下操作:
-
在 S3 兼容存储桶中,将您的模型文件放在名为
1/
的目录中,例如 /<s3_storage_bucket>/models/1/<model_files
>。 要使用 OVMS 运行时在单型号服务平台上部署模型,请选择以下选项之一来指定模型文件的路径:
-
如果您使用 OpenShift AI 仪表板来部署模型,在数据连接的 Path 字段中,使用 /<
s3_storage_bucket>/models/
格式来指定模型文件的路径。不要将1/
目录指定为路径的一部分。 -
如果您要创建自己的
InferenceService
自定义资源来部署模型,请将storageURI
字段的值配置为 /<s3_storage_bucket>/models/
。不要将1/
目录指定为路径的一部分。
-
如果您使用 OpenShift AI 仪表板来部署模型,在数据连接的 Path 字段中,使用 /<
-
在 S3 兼容存储桶中,将您的模型文件放在名为
KServe 从您指定的路径中的子目录拉取模型文件。在这种情况下,KServe 可以正确地从 S3 兼容存储中的 /& lt;s3_storage_bucket>/models/1/
目录中拉取模型文件。
KServe 上的 RHOAIENG-30 18- OVMS 在仪表板中不会公开正确的端点
当您使用 OpenVINO 模型服务器(OVMS)运行时在单模式服务平台上部署模型时,部署模型的 Inference endpoint 字段中显示的 URL 不完整。
- 临时解决方案
-
要将查询发送到模型,您必须将
/v2/models/_<model-name>_/infer
字符串添加到 URL 的末尾。将_<model-name>_
替换为部署的模型的名称。
RHOAIENG-260 2- "Average response time" 服务器指标图显示了因为 ModelMesh pod 重启导致多行
如果 ModelMesh pod 重启,Average 响应时间 服务器指标图会显示多行。
- 临时解决方案
- 无。
当集群中未启用 UWM 时,RHOAIENG -2585- UI 不会显示错误/警告
如果集群中 禁用了 用户工作负载监控(UWM),Red Hat OpenShift AI 无法正确警告用户。对于模型指标的正确功能,UWM 是必需的。
- 临时解决方案
- 手动确保在集群中启用了 UWM,如 为用户定义的项目启用监控 中所述。
在以表单更改 Serving Runtime 时,RHOAIENG-255 5- Model 框架选择器不会重置
当您使用 Deploy model 对话框在单模式服务平台上部署模型时,如果您选择运行时和支持的框架,则不会重置现有的框架选择。这意味着,可以使用所选运行时不支持的框架部署模型。
- 临时解决方案
- 在部署模型时,如果您更改了所选运行时,请再次点击 Select a framework 列表并选择受支持的框架。
与 KServe 相同的项目中的 RHOAIENG-2468 - Services 可能无法在 OpenShift 中访问
如果您在一个数据科学项目中部署了一个非 OpenShift AI 服务,其中包含在单模式服务平台(使用 KServe)上部署的模型,则服务的可访问性可能会受 OpenShift 集群的网络配置的影响。特别是当您使用 OVN-Kubernetes 网络插件 和主机网络命名空间时。
- 临时解决方案
执行以下操作之一:
- 在另一个数据科学项目中部署服务,它们不包含在单模式服务平台上部署的模型。或者,在另一个 OpenShift 项目中部署该服务。
在服务的数据科学项目中,添加一个 网络策略 来接受应用程序 pod 的入口流量,如下例所示:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-222 8- 当间隔设置为 15 秒时,性能指标图会持续变化
在模型指标屏幕的 Endpoint 性能 选项卡中,如果您将 Refresh interval 设为 15 秒,且 Time range 设为 1 小时,则图形结果会持续更改。
- 临时解决方案
- 无。
RHOAIENG-2183 - Endpoint 性能图可能会显示不正确的标签
在模型指标屏幕的 Endpoint 性能 选项卡中,图形工具提示可能会显示不正确的标签。
- 临时解决方案
- 无。
RHOAIENG-191 9- Model Serving 页面无法在部署后获取或报告模型路由 URL
从 OpenShift AI 仪表板部署模型时,系统会显示以下警告信息,而模型的 Status 列则表示成功并显示 OK/green checkmark。
Failed to get endpoint for this deployed model. routes.rout.openshift.io"<model_name>" not found
Failed to get endpoint for this deployed model. routes.rout.openshift.io"<model_name>" not found
- 临时解决方案
- 刷新浏览器页面。
RHOAIENG-404 - No Components Found 页面随机显示,而不是 OpenShift AI 仪表板中的 Enabled 页面
当您访问 Red Hat OpenShift AI 仪表板时,可能会出现 No Components Found 页面。
- 临时解决方案
- 刷新浏览器页面。
RHOAIENG-234 - 在 Insecured 集群中查看 VSCode 中的 .ipynb 文件
当您在不安全的集群中的 Google Chrome 上使用 code-server workbench 镜像时,您无法查看 .ipynb 文件。
- 临时解决方案
- 使用其他浏览器。
当尝试增加没有连接到工作台的持久性卷(PV)的大小时,会显示 RHOAIENG-1 128- Unclear 错误消息
当尝试增加没有连接到工作台的持久性卷(PV)的大小时,会显示不清晰的错误消息。
- 临时解决方案
- 在尝试增大大小前,验证您的 PV 是否已连接到工作台。
RHOAIENG-497 - removing DSCI 结果 in OpenShift Service Mesh CR Being Deleted Without User Notification
如果您删除了 DSCInitialization
资源,则也会删除 OpenShift Service Mesh CR。不显示警告消息。
- 临时解决方案
- 无。
如果所需资源不可用,则不应分配 RHOAIENG-282 - Workload
有时,即使单个机器实例没有足够的资源来成功置备 RayCluster,工作负载也会被分配。AppWrapper
CRD 处于 Running
状态,相关的 pod 无限期处于 Pending
状态。
- 临时解决方案
- 在集群中添加额外资源。
在 InferenceService 报告为 Loaded 后,RHOAIENG-131 - gRPC 端点没有正确响应
当生成了大量 InferenceService
实例时,Service Mesh Control Plane (SMCP)将变为无响应。InferenceService
实例的状态为 Loaded
,但调用 gRPC 端点会返回错误。
- 临时解决方案
-
编辑
ServiceMeshControlPlane
自定义资源(CR)以增加 Istio egress 和 ingress pod 的内存限值。
当模型刚刚启动时,RHOAIENG-130 - Synchronization 问题
当 KServe 容器的状态为 Ready
时,即使 TGIS 容器未就绪,也会接受请求。
- 临时解决方案
- 等待几秒钟,以确保所有初始化都已完成,并且 TGIS 容器实际上已就绪,然后查看请求输出。
在显示为就绪后的几秒内无法查询 RHOAIENG-311 5- Model
使用多模式服务平台部署的模型可能会没有响应查询,尽管仪表板中显示为 Ready。在查询模型端点时,您可能会看到 "Application is not available" 响应。
- 临时解决方案
- 等待 30-40 秒,然后在浏览器中刷新页面。
RHOAIENG-1619 (以前称为 DATA-SCIENCE-PIPELINES-165))- S3 存储桶不可写入时的 Poor 错误消息
当您设置数据连接时,且 S3 存储桶不可写入,而您尝试上传管道时,错误消息 Failed to store pipelines
并不有用。
- 临时解决方案
- 验证您的数据连接凭证是否正确,并且您具有对您指定的存储桶的写权限。
RHOAIENG-1207 (以前称为 ODH-DASHBOARD-1758)- 多次复制 OOTB 自定义服务运行时错误
如果您多次重复模型保留运行时,重复会失败,并显示 Serving 运行时名称 "<name>" already exists
错误信息。
- 临时解决方案
-
将
metadata.name
字段更改为一个唯一值。
RHOAIENG-1201 (以前称为 ODH-DASHBOARD-1908)- 无法创建具有空环境变量的工作台
在创建工作台时,如果您点 Add 变量,但没有从列表中选择环境变量类型,则无法创建工作台。该字段未标记为必填,不显示任何错误消息。
- 临时解决方案
- 无。
RHOAIENG-432 (以前称为 RHODS-12928)- 使用不支持的字符可以生成具有多个短划线的 Kubernetes 资源名称
当您创建资源并在名称中指定不支持的字符时,每个空格都会被一个短划线替换,并删除了其他不支持的字符,这会导致无效的资源名称。
- 临时解决方案
- 无。
RHOAIENG-226 (以前记录在 RHODS-12432)- 删除 notebook-culler ConfigMap 会导致 Permission Denied on dashboard
如果您删除 redhat-ods-applications
命名空间中的 notebook-controller-culler-config
ConfigMap,则无法将更改保存到 OpenShift AI 仪表板上的 Cluster Settings 页面。save 操作失败,并显示 HTTP 请求失败的错误
。
- 临时解决方案
以具有
cluster-admin
权限的用户身份登录的步骤:-
使用
oc
客户端登录到集群。 输入以下命令更新
redhat-ods-applications
应用程序命名空间中的OdhDashboardConfig
自定义资源:oc patch OdhDashboardConfig odh-dashboard-config -n redhat-ods-applications --type=merge -p '{"spec": {"dashboardConfig": {"notebookController.enabled": true}}}'
$ oc patch OdhDashboardConfig odh-dashboard-config -n redhat-ods-applications --type=merge -p '{"spec": {"dashboardConfig": {"notebookController.enabled": true}}}'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
-
使用
RHOAIENG-133 - 现有工作台无法在工作台重启后运行 Elyra 管道
如果您使用 Elyra JupyterLab 扩展在 JupyterLab 中创建并运行数据科学管道,并在创建了工作台 后 配置管道服务器,并在工作台中指定工作台镜像后,您无法执行管道,即使重启工作台后,也无法执行管道。
- 临时解决方案
- 停止正在运行的工作台。
- 编辑工作台以进行小修改。例如,添加新的 dummy 环境变量,或删除现有的不必要的环境变量。保存您的更改。
- 重启工作台。
- 在 JupyterLab 左侧边栏中,单击 Runtimes。
- 确认选择了默认运行时。
RHODS-12798 - Pod 失败并显示 "unable to init seccomp" 错误
Pod 会失败,并显示 CreateContainerError
状态或 Pending
状态而不是 Running
状态,因为已知内核错误引入了 seccomp
内存泄漏。当您检查 pod 失败的命名空间中的事件时,或运行 oc describe pod
命令时,会出现以下错误:
runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524
runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524
- 临时解决方案
-
增加
net.core.bpf_jit_limit
的值,如红帽知识库解决方案 Pod 失败,并将 seccomp 过滤器错误加载到 OpenShift 4 中的 kernel: errno 524。
KUBEFLOW-177 - Bearer 令牌来自没有由 OAuth-proxy 转发的应用程序
如果应用程序基于 bearer 令牌,则无法将应用程序用作自定义工作台镜像。OAuth-proxy 配置从标头中删除 bearer 令牌,应用程序无法正常工作。
- 临时解决方案
- 无。
RHOAIENG-1210 (以前称为 ODH-DASHBOARD-1699)- Workbench 不会自动重启所有配置更改
当您编辑工作台的配置设置时,会显示警告信息,表示工作台将在其配置设置进行任何更改时重启。这个警告有误导,因为在以下情况下,工作台不会自动重启:
- 编辑名称
- 编辑描述
- 编辑、添加或删除现有环境变量的键和值
- 临时解决方案
- 手动重启工作台。
RHOAIENG-1208 (以前称为 ODH-DASHBOARD-1741)- 无法创建名称以数字开头的工作台
如果您试图创建名称以数字开头的工作台,则工作台不会启动。
- 临时解决方案
- 删除工作台,并使用以字母开头的名称创建一个新工作台。
如果您已经从 OpenShift AI 仪表板注销,KUBEFLOW-157 - logging out of JupyterLab 无法正常工作
如果您在从 JupyterLab 注销前注销 OpenShift AI 仪表板,则注销 JupyterLab 将无法成功。例如,如果您知道 Jupyter 笔记本的 URL,您可以在浏览器中再次打开它。
- 临时解决方案
- 在从 OpenShift AI 仪表板注销前,先从 JupyterLab 注销。
如果 RHODS-9789 - Pipeline 服务器包含在数据库名称或用户名字段中包含短划线的自定义数据库,则 RHODS-9789- Pipeline 服务器无法启动
当您创建一个使用自定义数据库的管道服务器时,如果您为 dbname 字段或 username 字段设置的值中包含短划线,则管道服务器无法启动。
- 临时解决方案
- 编辑管道服务器,从受影响的字段中省略短划线。
RHODS- 7718- 没有仪表板权限的用户可以无限期地使用其正在运行的工作台
当 Red Hat OpenShift AI 管理员撤销用户权限时,用户可以无限期地继续使用其正在运行的工作台。
- 临时解决方案
- 当 OpenShift AI 管理员撤销用户权限时,管理员还应停止该用户的任何正在运行的工作台。
RHOAIENG-1157 (以前称为 RHODS-6955)- 试图编辑工作台时可能会出现错误
在编辑工作台时,可能会出现类似如下的错误:
Error creating workbench Operation cannot be fulfilled on notebooks.kubeflow.org "workbench-name": the object has been modified; please apply your changes to the latest version and try again
Error creating workbench
Operation cannot be fulfilled on notebooks.kubeflow.org "workbench-name": the object has been modified; please apply your changes to the latest version and try again
- 临时解决方案
- 无。
RHOAIENG-1152 (以前称为 RHODS-6356)- 对于从未登录到仪表板的用户,基本工作流创建过程会失败
仪表板的基本工作台的 Administration 页面显示属于 OpenShift 中用户组和 admin 组的用户。但是,如果管理员尝试代表永远不会登录到仪表板的用户启动基本工作台,则 basic-workbench 创建过程会失败,并显示以下出错信息:
Request invalid against a username that does not exist.
Request invalid against a username that does not exist.
- 临时解决方案
- 请求相关的用户登录到仪表板。
RHODS-554 3- 使用 NVIDIA GPU Operator 时,Node Autoscaler 创建的节点数量要多
当因为可用资源不足而无法调度 pod 时,Node Autoscaler 将创建一个新节点。在新创建的节点接收相关 GPU 工作负载前会有一个延迟。因此,pod 无法调度,Node Autoscaler 会不断创建额外的新节点,直到其中一个节点准备好接收 GPU 工作负载。有关此问题的更多信息,请参阅红帽知识库解决方案 使用 NVIDIA GPU Operator 时,超过 Node Autoscaler 创建的节点数量。
- 临时解决方案
-
在
machineset.spec.template.spec.metadata
中应用cluster-api/accelerator
标签。这会导致自动扩展将这些节点视为未就绪,直到部署了 GPU 驱动程序。
RHOAIENG-1149 (以前称为 RHODS-5216)) - 应用程序启动程序菜单错误地显示到 OpenShift Cluster Manager 的链接
Red Hat OpenShift AI 错误地从应用程序启动程序显示 OpenShift Cluster Manager 的链接。点此链接会导致 "Page Not Found" 错误,因为 URL 无效。
- 临时解决方案
- 无。
RHOAIENG-1137 (以前称为 RHODS-5251))- 基本工作台的管理页面显示丢失权限访问权限的用户
如果之前启动基本工作台的用户丢失了其权限,例如,如果 OpenShift AI 管理员更改了用户组设置,或者从允许的组中删除用户,则管理员将继续看到 管理 页面上用户的基本工作台。因此,管理员可以重启属于撤销权限的用户的基本工作台。
- 临时解决方案
- 无。
RHODS-4799 - Tensorboard 需要手动步骤才能查看
当用户有 TensorFlow 或 PyTorch workbench 镜像,并希望使用 TensorBoard 显示数据,需要手动步骤在工作台环境中包含环境变量,并在您的代码中导入这些变量。
- 临时解决方案
当您启动基本工作台时,使用以下代码来设置 TENSORBOARD_PROXY_URL 环境变量的值,以使用您的 OpenShift AI 用户 ID。
import os os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"
import os os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHODS-47 18- Intel® oneAPI AI Analytics Toolkits 快速开始引用不存在的示例笔记本
Intel® OneAPI AI Analytics Toolkits 快速开始(位于仪表板上的 Resources 页面中),要求用户以指令步骤的一部分加载示例笔记本,但引用相关存储库中不存在的笔记本。
- 临时解决方案
- 无。
RHOAIENG-1141 (以前称为 RHODS-4502)- 仪表板中的 NVIDIA GPU Operator 标题显示不必要的按钮
安装 NVIDIA GPU Operator 后,Jupyter 中会自动提供 GPU。因此,在 Explore 页面中的 NVIDIA GPU Operator 标题中 Enable 按钮是多余的。另外,点 Enable 按钮会将 NVIDIA GPU Operator 标题移到 Enabled 页面,即使 Operator 没有被安装。
- 临时解决方案
- 无。
RHODS-3984 - Incorrect 软件包版本在笔记本选择过程中显示
在 OpenShift AI 界面中,启动笔记本服务器页面 显示 oneAPI AI Analytics Toolkit 笔记本镜像中包含的 JupyterLab 和 Notebook 软件包的不正确的版本号。该页面还可能显示此镜像使用的 Python 版本的错误值。
- 临时解决方案
-
当您启动 oneAPI AI Analytics Toolkit 笔记本服务器时,您可以在笔记本服务器上安装哪些 Python 软件包,以及在笔记本单元中运行
!pip list
命令。
RHODS- 2956- Error 在创建 notebook 实例时可能会出现
在 Jupyter 中创建 notebook 实例时,有时会出现未找到目录
错误。单击 Dismiss 可忽略此错误消息。
- 临时解决方案
- 无。
RHOAING-1147 (以前称为 RHODS-2881)- 在仪表板上的操作没有明确可见
仪表板操作重新验证禁用的应用程序许可证,并删除禁用的应用程序标题对用户没有明确可见。当用户点击应用程序标题的 Disabled
标签时,会出现这些操作。因此,预期的工作流可能对用户并不明确。
- 临时解决方案
- 无。
RHOAIENG-1134 (以前称为 RHODS-2879)- 许可证重新验证操作没有必要地出现
对于没有许可证验证或激活系统的应用程序,仪表板操作会不必要地验证禁用的应用程序许可证。另外,当用户尝试重新验证无法重新验证的许可证时,不会显示反馈来说明无法完成该操作的原因。
- 临时解决方案
- 无。
RHOAIENG-2305 (以前称为 RHODS-2650)- Pachyderm 部署期间可能会出现错误
在创建 Pachyderm operator 的实例时,webhook 错误会出现间歇性错误,从而导致创建过程成功启动。webhook 错误表明,Pachyderm operator 无法进行健康检查,从而导致它重启,或者 Operator 进程超过其容器分配的内存限值,可触发内存不足(OOM)终止。
- 临时解决方案
- 重复 Pachyderm 实例创建过程,直到不再显示错误。
RHODS-2096 - IBM Watson Studio 不在 OpenShift AI
当在 OpenShift Dedicated 4.9 或更高版本上安装 OpenShift AI 时,IBM Watson Studio 不可用,因为它与这些版本的 OpenShift Dedicated 不兼容。
- 临时解决方案
- 联系 Marketplace 支持,以获取在 OpenShift Dedicated 4.9 及更高版本上手动配置 Watson Studio 的帮助。