第 6 章 DSPA 组件错误故障排除


下表显示了在 DataSciencePipelinesApplication (DSPA)组件中找到的常见错误,以及相关的状态、消息和建议的解决方案。Ready 条件类型从各种 DSPA 组件收集错误,提供 DSPA 部署的状态视图。

Expand
类型Status错误信息和解决方案

ObjectStorageAvailable

Ready

False

False

错误消息: Could not connect to Object Store: tls: failed to verify certificate: x509: certificate signed by unknown authority

解决方案 :这个问题发生在 OpenShift AI 版本 2.9 或更高版本中使用自签名证书的集群中。数据科学项目管理器无法连接到对象存储,因为它不信任对象存储 SSL 证书。因此,无法创建管道服务器。请联系您的 IT 操作管理员,以添加相关的证书颁发机构捆绑包。

如需更多信息,请参阅使用证书

ObjectStorageAvailable

Ready

False

False

错误消息:Could not connect to Object Store Deployment for component "ds-pipeline-pipelines-definition" is missing - 先决条件组件可能还不可用。缺少组件 "ds-pipeline-persistenceagent-pipelines-definition" 的部署 - 先决条件组件可能还不可用。缺少组件 "ds-pipeline-scheduledworkflow-pipelines-definition" 的部署 - 先决条件组件可能还不可用。

解决方案:在运行 OpenShift AI 2.8.x 的集群中,数据科学项目管理器可能无法连接到对象存储,且可能无法创建管道服务器。

确保您的对象存储凭证和连接信息准确,并验证从数据科学项目关联的 OpenShift 命名空间中访问对象存储。一个常见的问题是对象存储 SSL 证书不被信任,特别是在使用自签名证书时。

验证和更新对象存储凭据,然后重试操作。

ObjectStorageAvailable

Ready

False

False

错误消息 :Wrong credentials for Object Storage: Could not connect to (minio-my-project.apps.my-cluster.com), Error: 我们计算的请求签名与您提供的签名不匹配。检查您的密钥和签名方法。

解决方案:为您的对象存储提供正确的凭证,并重试操作。

DatabaseAvailable

Ready

False

False

错误消息: FailingToDeploy: Dial tcp XXX.XXX.XXX:3306 : i/o timeout

解决方案:如果问题在启动之外仍然存在,请在数据库连接设置中检查网络问题或错误配置。

DatabaseAvailable

Ready

False

False

错误消息: Unable to connect to external database: tls: failed to verify certificate: x509: certificate signed by unknown authority

解决方案 :在使用任何外部数据库时,可能会出现此问题,如 Amazon RDS。数据科学项目管理器无法连接到数据库,因为它不信任数据库 SSL 证书,从而导致创建管道服务器。请联系您的 IT 操作管理员以添加相关证书。

如需更多信息,请参阅使用证书

DatabaseAvailable

Ready

False

False

错误消息: Error 1129: Host 'A.B.C.D' 因许多连接错误而被阻止。

解决方案:使用外部数据库时可能会出现此问题,如 Amazon RDS。最初,管道服务器创建成功。但是,在一段时间后,OpenShift AI 仪表板显示一个"错误显示管道"消息,而 DSPA 条件则表示主机因为多个连接错误而被阻止。

有关如何为外部 Amazon RDS 数据库解决这个问题的更多信息,请参阅 解决 "Host is blocked due due many connection error" error in Amazon RDS for MySQL。注:点击此链接会打开外部网站。

APIServerReady

Ready

False

False

错误消息: 由于项目名称长,路由创建失败: Route.route.openshift.io 无效:spec.host 超过 63 个字符。

解决方案:确保 OpenShift 中的项目名称小于 40 个字符。

APIServerReady

Ready

False

False

错误消息:FailingToDeploy: Component replica failed to create。Message: serviceaccount "ds-pipeline-sample" not found.

解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。

PersistenceAgentReady

Ready

False

False

错误消息: FailingToDeploy: 组件的副本无法创建。Message: serviceaccount "ds-pipeline-persistenceagent-sample" not found.

解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。

ScheduledWorkflowReady

Ready

False

False

错误消息: FailingToDeploy: 组件的副本无法创建。Message: serviceaccount "ds-pipeline-scheduledworkflow-sample" not found.

解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。

MLMDProxyReady

Ready

False

False

错误消息: Deploying: Component [ds-pipeline-scheduledworkflow-sample] 仍在部署。

解决方案:等待 DSPA 启动完成。如果部署在 25 秒后失败,请检查日志以了解更多信息。

6.1. DSP 组件间的常见错误

下表列出了在多个 DSPA 组件间可能会出现的错误:

Expand
部署条件和条件类型Status错误信息和解决方案

状况: 未找到组件部署

状况类型: ComponentDeploymentNotFound

False

错误消息: 组件 <component> Deployment 缺少 - 先决条件组件可能还不可用。

解决方案:该组件的部署不存在。通常,这个问题会因为缺少部署或创建过程中发生的问题。

状况:部署扩展

状况类型: MinimumReplicasAvailable

False

错误消息: 为组件 <component> Deployment 被缩减。

解决方案:组件不可用,因为部署副本数设为零。

条件:组件无法进行

condition type: FailingToDeploy

False

错误消息: Component <component> has failed to progress。原因:<progressingCond.Reason>.Message: <progressingCond.Message>

解决方案:由于 ProgressDeadlineExceededReplicaSetCreateError 问题,部署已停止,或类似。

条件:复制创建失败

condition type: FailingToDeploy

False

错误消息:Component's replica <component> has failed to create。原因:<replicaFailureCond.Reason>.Message: <replicaFailureCond.Message>

解决方案 :复制创建失败,通常是因为副本集中的错误或服务帐户。

condition: Pod-Level Failures

condition type: FailingToDeploy

False

错误消息: 每个 pod 的 Concatenated 失败消息。

解决方案:部署 pod 处于失败状态。检查 pod 日志以了解更多信息。

condition: Pod in CrashLoopBackOff

condition type: FailingToDeploy

False

错误消息: Component <component> is in CrashLoopBackOff.来自 pod 的消息:<crashLoopBackOffMessage>

解决方案 :Pod 容器会重复失败,通常是因为环境变量不正确或缺少服务帐户。

条件:组件部署(无错误)

condition: type: Deploying

False

错误消息: Component <component> is deployed.

解决方案 :组件部署过程持续,且不会检测到错误。

条件:最小组件可用

状况类型: MinimumReplicasAvailable

True

错误消息: Component <component> is minimally available。

解决方案:组件可用,但仅运行的最小副本数。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部