7.7. 管理员对工作台中的常见问题进行故障排除
如果您的用户在与 Jupyter、Jupyterbooks 或其工作台相关的 Red Hat OpenShift AI 中遇到错误,请阅读本节以了解导致问题的原因,以及如何解决这个问题。
如果在此处或发行注记中无法找到相关的信息,请联系红帽支持团队。
7.7.1. 用户在登录到 Jupyter 时收到 404: Page not found 错误 复制链接链接已复制到粘贴板!
问题
如果您配置了 OpenShift AI 用户组,则可能无法将用户名添加到 OpenShift AI 的默认用户组中。
诊断
检查用户是否是默认用户组的一部分。
查找允许访问 Jupyter 的组名称。
- 登录 OpenShift Web 控制台。
-
点 User Management
Groups。 点用户组的名称,如
rhoai-users
。此时会出现该组的组详细信息页面。
- 点组的 Details 选项卡,并确认相关组的 Users 部分包含有权访问 Jupyter 的用户。
解决方案
- 如果用户没有添加到有权访问 Jupyter 的任何组中,请遵循 将用户添加到 OpenShift AI 用户组 来添加它们。
- 如果用户已添加到有访问 Jupyter 的组中,请联系红帽支持。
7.7.2. 用户的工作台不会启动 复制链接链接已复制到粘贴板!
问题
托管用户工作台的 OpenShift 集群可能无法访问充足的资源,否则工作台 Pod 可能出现问题。
诊断
- 登录 OpenShift Web 控制台。
删除并重启此用户的工作台 pod。
-
点 Workloads
Pods,将项目设置为 rhods-notebooks
。 搜索属于此用户的工作台 pod,例如
jupyter-nb-<username>
。如果工作台 pod 存在,则工作台 pod 中可能会出现间歇性故障。
如果用户的工作台 pod 不存在,请继续诊断。
-
点 Workloads
根据所选工作台镜像所需的资源,检查 OpenShift 集群中当前可用的资源。
如果有足够 CPU 和 RAM 的 worker 节点可用于在集群中调度,请继续诊断过程。
- 检查工作台 pod 的状态。
解决方案
如果工作台 pod 出现间歇性故障:
- 删除属于用户的工作台 pod。
- 询问用户再次启动其工作台。
- 如果工作台没有足够的资源来运行所选工作台镜像,请在 OpenShift 集群中添加更多资源,或者选择较小的镜像大小。
如果工作台 pod 处于 FAILED 状态:
-
检索
jupyter-nb114
pod 的日志,并将其发送到红帽支持以进一步评估。 -
删除
jupyter-nb-*
pod。
-
检索
- 如果没有以前的解决方案,请联系红帽支持。
问题
用户可能已在其工作台上耗尽存储空间。
诊断
登录到 Jupyter 并启动属于用户问题的工作台。如果工作台没有启动,请按照以下步骤检查用户是否已耗尽存储空间:
- 登录 OpenShift Web 控制台。
-
点 Workloads
Pods,将项目设置为 rhods-notebooks
。 -
点属于此用户的工作台 pod,例如
jupyter-nb-<idp>-<username> github
。 点 Logs。如果您看到类似如下的行,用户已超过其可用容量:
Unexpected error while saving file: XXXX database or disk is full
Unexpected error while saving file: XXXX database or disk is full
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
解决方案
- 通过扩展其持久性卷来增加用户可用的存储: 扩展持久性卷
-
与用户合作识别可以从
/opt/app-root/src
目录中删除的文件,以释放其现有存储空间。
当您使用 JupyterLab 文件管理器删除文件时,文件将移到工作台的持久性存储中的隐藏的 /opt/app-root/src/.local/share/Trash/files
文件夹。要为工作台释放存储空间,您必须永久删除这些文件。