第 6 章 DSPA 组件错误故障排除
下表显示了在 DataSciencePipelinesApplication (DSPA)组件中找到的常见错误,以及相关的状态、消息和建议的解决方案。Ready 条件类型从各种 DSPA 组件收集错误,提供 DSPA 部署的状态视图。
| 类型 | Status | 错误信息和解决方案 |
|---|---|---|
|
Ready | False False |
错误消息: 解决方案 :这个问题发生在 OpenShift AI 版本 2.9 或更高版本中使用自签名证书的集群中。数据科学项目管理器无法连接到对象存储,因为它不信任对象存储 SSL 证书。因此,无法创建管道服务器。请联系您的 IT 操作管理员,以添加相关的证书颁发机构捆绑包。 如需更多信息,请参阅使用证书。 |
|
Ready | False False |
错误消息: 解决方案:在运行 OpenShift AI 2.8.x 的集群中,数据科学项目管理器可能无法连接到对象存储,且可能无法创建管道服务器。 确保您的对象存储凭证和连接信息准确,并验证从数据科学项目关联的 OpenShift 命名空间中访问对象存储。一个常见的问题是对象存储 SSL 证书不被信任,特别是在使用自签名证书时。 验证和更新对象存储凭据,然后重试操作。 |
|
Ready | False False |
错误消息 : 解决方案:为您的对象存储提供正确的凭证,并重试操作。 |
|
Ready | False False |
错误消息: 解决方案:如果问题在启动之外仍然存在,请在数据库连接设置中检查网络问题或错误配置。 |
|
Ready | False False |
错误消息: 解决方案 :在使用任何外部数据库时,可能会出现此问题,如 Amazon RDS。数据科学项目管理器无法连接到数据库,因为它不信任数据库 SSL 证书,从而导致创建管道服务器。请联系您的 IT 操作管理员以添加相关证书。 如需更多信息,请参阅使用证书。 |
|
Ready | False False |
错误消息: 解决方案:使用外部数据库时可能会出现此问题,如 Amazon RDS。最初,管道服务器创建成功。但是,在一段时间后,OpenShift AI 仪表板显示一个"错误显示管道"消息,而 DSPA 条件则表示主机因为多个连接错误而被阻止。 有关如何为外部 Amazon RDS 数据库解决这个问题的更多信息,请参阅 解决 "Host is blocked due due many connection error" error in Amazon RDS for MySQL。注:点击此链接会打开外部网站。 |
|
Ready | False False |
错误消息: 解决方案:确保 OpenShift 中的项目名称小于 40 个字符。 |
|
Ready | False False |
错误消息: 解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。 |
|
Ready | False False |
错误消息: 解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。 |
|
Ready | False False |
错误消息: 解决方案:如果故障在 DSPA 启动过程中保留超过 25 秒,请重新创建缺少的服务帐户。 |
|
Ready | False False |
错误消息: 解决方案:等待 DSPA 启动完成。如果部署在 25 秒后失败,请检查日志以了解更多信息。 |
6.1. DSP 组件间的常见错误 复制链接链接已复制到粘贴板!
下表列出了在多个 DSPA 组件间可能会出现的错误:
| 部署条件和条件类型 | Status | 错误信息和解决方案 |
|---|---|---|
| 状况: 未找到组件部署
状况类型: | False |
错误消息: 解决方案:该组件的部署不存在。通常,这个问题会因为缺少部署或创建过程中发生的问题。 |
| 状况:部署扩展
状况类型: | False |
错误消息: 解决方案:组件不可用,因为部署副本数设为零。 |
| 条件:组件无法进行
condition type: | False |
错误消息:
解决方案:由于 |
| 条件:复制创建失败
condition type: | False |
错误消息: 解决方案 :复制创建失败,通常是因为副本集中的错误或服务帐户。 |
| condition: Pod-Level Failures
condition type: | False |
错误消息: 解决方案:部署 pod 处于失败状态。检查 pod 日志以了解更多信息。 |
| condition: Pod in CrashLoopBackOff
condition type: | False |
错误消息: 解决方案 :Pod 容器会重复失败,通常是因为环境变量不正确或缺少服务帐户。 |
| 条件:组件部署(无错误)
condition: type: | False |
错误消息: 解决方案 :组件部署过程持续,且不会检测到错误。 |
| 条件:最小组件可用
状况类型: | True |
错误消息: 解决方案:组件可用,但仅运行的最小副本数。 |