管理资源
从 OpenShift AI 仪表板管理管理任务
摘要
前言 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以管理以下资源:
- OpenShift AI admin 和用户组
- 仪表板自定义
- 自定义工作台镜像
- 集群 PVC 大小
- 连接类型
- 集群存储类
- 基本工作台
您还可以指定是否允许红帽收集有关集群中 OpenShift AI 使用的数据。
第 1 章 选择 OpenShift AI 管理员和用户组 复制链接链接已复制到粘贴板!
默认情况下,在 OpenShift 中通过身份验证的所有用户都可以访问 OpenShift AI。
默认情况下,具有 cluster-admin
权限的用户是 OpenShift AI 管理员。集群管理员是在 OpenShift 集群中
任何项目中执行任何操作的超级用户。当使用本地绑定来绑定一个用户时,这些用户可以完全控制项目中每一资源的配额和所有操作。
集群管理员用户在 OpenShift 中定义了额外的管理员和用户组后,您可以通过在 OpenShift AI 仪表板中选择这些组到 OpenShift AI。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- OpenShift 中已存在您要选择为 OpenShift AI 的管理员和用户组的组。如需更多信息,请参阅 管理用户和组。
流程
- 在 OpenShift AI 仪表板中点 Settings → User management。
- 选择 OpenShift AI 管理员组:在 Data Science 管理员组 下,点文本框并选择 OpenShift 组。重复此过程来定义多个管理员组。
选择 OpenShift AI 用户组:在 Data Science 用户组 下,点文本框并选择 OpenShift 组。重复此过程以定义多个用户组。
重要system:authenticated
设置允许 OpenShift 中通过身份验证的所有用户访问 OpenShift AI。- 点 Save Changes。
验证
- 管理员用户可以成功登录 OpenShift AI,并有权访问 Settings 导航菜单。
- 非管理员用户可以成功登录到 OpenShift AI。它们还可以访问和使用各个组件,如项目和工作台。
第 2 章 自定义仪表板 复制链接链接已复制到粘贴板!
OpenShift AI 仪表板提供专为大多数场景而设计的功能。这些功能在 OdhDashboardConfig
自定义资源(CR)中配置。
要在 OpenShift AI 仪表板配置中看到选项的描述,请参阅 Dashboard 配置选项。
作为 OpenShift AI 管理员,您可以自定义仪表板的接口。例如,您可以显示或隐藏一些仪表板导航菜单项。要更改仪表板的默认设置,请编辑 OdhDashboardConfig
CR,如 编辑仪表板配置 中所述。
2.1. 编辑仪表板配置 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以通过编辑仪表板配置来自定义仪表板接口。
先决条件
- 有 OpenShift AI 管理员特权。
流程
- 以具有 OpenShift AI 管理员特权的用户身份登录 OpenShift 控制台。
- 在 Administrator 视角中,点 Home → API Explorer。
-
在搜索栏中,输入
OdhDashboardConfig
以根据 kind 进行过滤。 -
单击
OdhDashboardConfig
自定义资源(CR)以打开资源详情页面。 -
从 Project 列表中,选择 OpenShift AI 应用程序命名空间;默认为
redhat-ods-applications
。 - 点 实例 选项卡。
-
点
odh-dashboard-config
实例打开详情页面。 - 点 YAML 标签。
编辑您要更改的选项值。
例如,要在仪表板导航菜单中显示或隐藏一个菜单项,请更新
spec.dashboardConfig
部分来编辑相关的仪表板配置选项。注意如果
OdhDashboardConfig
CR 中没有包括仪表板配置选项,则会使用默认值。要更改这些选项的默认行为,请编辑
OdhDashboardConfig
CR,将缺少的条目添加到spec.dashboardConfig
部分,并设置首选值:-
要显示该功能,请将值设为
false
-
要隐藏该功能,请将值设为
true
Example
默认情况下,分布式工作负载 菜单项显示在仪表板导航菜单中。要隐藏此菜单项,请将
disableDistributedWorkloads
值设置为true
,如下所示:disableDistributedWorkloads: true
disableDistributedWorkloads: true
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 有关仪表板配置选项及其默认值的更多信息,请参阅 Dashboard 配置选项。
-
要显示该功能,请将值设为
- 点 Save 以应用您的更改,然后点 Reload 将您的更改同步到集群。
验证
- 登录到 OpenShift AI 并验证是否应用了仪表板配置。
2.2. 仪表板配置选项 复制链接链接已复制到粘贴板!
OpenShift AI 仪表板包括一组默认启用的核心功能,它们适用于大多数场景。OpenShift AI 管理员可以从 OpenShift 中的 OdhDashboardConfig
自定义资源(CR)配置 OpenShift AI 仪表板。
如果 OdhDashboardConfig
CR 中没有包括仪表板配置选项,则会使用默认值。要更改这些选项的默认行为,请编辑 OdhDashboardConfig
CR,将缺少的条目添加到 spec.dashboardConfig
部分,并设置首选值:
-
要显示该功能,请将值设为
false
-
要隐藏该功能,请将值设为
true
有关设置仪表板配置选项的更多信息,请参阅 编辑仪表板配置。
Red Hat production 服务等级协议 (SLA)不支持此表中的功能(技术预览
),且可能无法正常工作。红帽不推荐在生产环境中使用技术预览功能。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
功能配置选项 | default | 描述 |
---|---|---|
|
|
在仪表板导航菜单中显示 Settings → Accelerator profiles 菜单项。要隐藏此菜单项,请将值设为
注: |
|
|
在仪表板导航菜单中显示 Settings → Connection type 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在仪表板导航菜单中显示 Settings → Workbench images 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在仪表板导航菜单中显示 Settings → Cluster settings 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在仪表板导航菜单中显示 Settings → Serving runtime 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在仪表板导航菜单中显示 分布式工作负载 菜单项。要隐藏此菜单项,请将值设为 |
(技术预览) |
|
在仪表板导航菜单 中隐藏 Models → Model Custom 菜单项,为注册的模型版本隐藏 LAB-tune 菜单项和按钮。要显示这些项目,请将值设为 LAB-tuning 是 OpenShift AI 发行版本中的一个技术预览功能。 |
|
|
在仪表板中隐藏与 Kue 相关的选项。将值设为 |
(技术预览) |
|
在仪表板导航菜单中隐藏 Model → Model evaluation run 菜单项。要显示这些项目,请将值设为 模型评估是 OpenShift AI 发行版本中的一个技术预览功能。 |
(技术预览) |
|
在仪表板导航菜单中隐藏 Settings → Hardware profiles 菜单项,如果
如果这两个选项都设置为 硬件配置集是 OpenShift AI 发行版本中的一个技术预览功能。 |
|
|
在仪表板导航菜单中显示 Home 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在 Applications → Explore 页面中,当用户点击应用程序标题时,会打开一个信息面板,其中包含有关应用程序的详情。要禁用 Applications → Explore 页面中所有应用程序的信息面板,请将值设为 |
|
|
显示标题上的标签,指示应用程序是 |
|
|
启用选择 KServe 作为模型平台的功能。要禁用此功能,请将值设为 |
|
|
启用通过 KServe 使用身份验证的功能。要禁用此功能,请将值设为 |
|
|
启用查看 KServe 指标的功能。要禁用此功能,请将值设为 |
|
| 在 Settings → Cluster settings 页面中,在 Single-model service platform 部分,显示 Default 部署 模式列表。 在使用单模式服务平台时,在 Deploy model 对话框中: - 如果安装了 Red Hat OpenShift Serverless Operator 和 Red Hat OpenShift Service Mesh Operator,则会显示 Deployment 模式 列表。 - 如果没有安装 Red Hat OpenShift Serverless Operator 和 Red Hat OpenShift Service Mesh Operator,隐藏 Deployment 模式 列表,并将部署模式设置为 Standard。
要隐藏这些 deployment-mode 列表,在使用 single-model 服务平台时将部署模式设置为 Advanced,请将 |
(技术预览) |
|
在仪表板导航菜单中隐藏 Models → Model catalog 菜单项。要显示此菜单项,请将值设为 模型目录是 OpenShift AI 发行版本中的一个技术预览功能。 |
|
|
启用选择 ModelMesh 作为模型平台的功能。要禁用此功能,请将值设为 |
(技术预览) |
|
在仪表板导航菜单中显示 Models → Model registry 菜单项和 Settings → Model registry settings 菜单项。要隐藏这些菜单项,请将值设为 在 OpenShift AI 发行版本中,模型 registry 是一个技术预览功能。 |
(技术预览) |
|
在 Create model registry 对话框和 Edit model registry 对话框中显示 Add CA certificate to secure database connection 部分。要隐藏此部分,请将值设为 在 OpenShift AI 发行版本中,模型 registry 是一个技术预览功能。 |
|
|
在仪表板导航菜单中显示 Models → Model deployments 菜单项,以及数据科学项目中的 Models 选项卡。要隐藏这些项目,请将值设为 |
|
|
启用选择 NVIDIA NIM 作为模型平台的功能。要禁用此功能,请将值设为 |
|
|
显示 Model 部署 页面中的 Endpoint Performance 选项卡。要隐藏此选项卡,请将值设为 |
|
|
在仪表板导航菜单中显示 Data Science pipelines 菜单项。要隐藏此菜单项,请将值设为 |
|
|
在仪表板导航菜单中显示 Data Science projects 菜单项。要隐藏此菜单项,请将值设为 |
|
|
OpenShift AI Web 控制台中的全局项目和项目范围项目(如果存在项目范围项目)。这个选项适用于 KServe 的工作台镜像、硬件配置集、加速器配置集和模型保留运行时。要禁用此功能,请将值设为 |
|
|
允许用户与其他用户共享其数据科学项目的访问权限。要防止用户共享数据科学项目,请将值设为 |
|
|
在 使用单 型号服务平台时,显示 Deploy model 对话框中的配置参数部分和 Edit model 对话框。要隐藏此部分,请将值设为 |
|
|
在仪表板导航菜单中显示 Settings → Storage class 菜单项。要隐藏此菜单项,请将值设为 |
|
|
当用户点击仪表板工具栏中的 Help 图标时,会显示 Support 菜单项。要隐藏此菜单项,请将值设为 |
|
|
允许红帽收集有关集群中 OpenShift AI 使用量的数据。要禁用数据收集,请将值设为 |
|
|
显示 Models 页面中的 Model Bias 选项卡。要隐藏此选项卡,请将值设为 |
|
|
在仪表板导航菜单中显示 Settings → User Management 菜单项。要隐藏此菜单项,请将值设为 |
|
|
启用 OpenShift AI 管理员将应用程序添加到 OpenShift AI dashboard Applications → Enabled 页面中。要禁用此功能,请将值设为 |
| 不再使用 |
只读。要配置对 OpenShift AI 仪表板的访问,请使用 |
|
| 允许您为模型服务器自定义名称和资源。 |
|
|
在 Applications 部分显示 Start basic workbench 标题,在 Data Science projects 页面中显示 Start basic workbench 按钮。要隐藏这些项目,请将值设为 |
|
| 允许您自定义工作台的名称和资源。使用 Notebook Controller 启动工作台时会显示 Kubernetes 风格大小。 注: 这些大小必须遵循惯例。例如,请求必须小于限制。 |
|
| 指定自定义 Serving Runtime 模板的顺序。当用户创建新模板时,会将其添加到此列表中。 |
第 3 章 导入自定义工作台镜像 复制链接链接已复制到粘贴板!
除了由红帽和独立软件供应商(ISV)提供和支持的工作台镜像外,您还可以将满足项目的特定要求的自定义工作台镜像导入。
您必须导入它,以便您的 OpenShift AI 用户(数据科学家)在创建项目工作台时可以访问它。
红帽支持在 OpenShift AI 部署中添加自定义工作台镜像,确保在创建工作台时可以选择它们。但是,红帽不支持您的自定义工作台镜像的内容。也就是说,如果您的自定义工作台镜像可以在工作台创建过程中选择,但没有创建可用的工作台,红帽不提供支持修复您的自定义工作台镜像。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 您的自定义镜像存在于可供 OpenShift AI 访问的镜像 registry 中。
- Settings → Workbench images dashboard 导航菜单项已启用,如 在 OpenShift AI 中启用自定义工作台镜像 中所述。
- 如果要将加速器与您要导入的自定义镜像关联,您知道加速器的标识符 - 标识硬件加速器的唯一字符串。您还必须在 OpenShift AI 中启用 GPU 支持。这包括安装 Node Feature Discovery Operator 和 NVIDIA GPU Operator。如需更多信息,请参阅安装 Node Feature Discovery Operator 和 启用 NVIDIA GPU。
流程
在 OpenShift AI 仪表板中点 Settings → Workbench images。
Workbench 镜像页面 将打开。以前导入的镜像会被显示。要在包含相关镜像的行上启用或禁用之前导入的镜像,请点击 Enable 列中的切换。
- 可选:如果要关联加速器,且还没有创建加速器配置集或硬件配置集,点包含镜像的行上的 Create profile 并完成相关字段。如果镜像不包含加速器标识符,则必须在创建关联的加速器配置集或硬件配置集前手动配置它。
点 Import new image。或者,如果未找到之前导入的镜像,请点 Import image。
此时会打开 Import workbench 镜像 对话框。
-
在 Image location 字段中,输入包含镜像的存储库的 URL。例如:
quay.io/my-repo/my-image:tag
,quay.io/my-repo/my-image@sha256:xxxxxxxxxxxxxxx
, 或docker.io/my-repo/my-image:tag
. - 在 Name 字段中输入镜像的适当名称。
- 可选:在 Description 字段中输入镜像的描述。
- 可选:从 加速器标识符 列表中,选择一个标识符来建议通过镜像设置其加速器。如果镜像只包含一个加速器标识符,则默认会显示标识符名称。
可选:在镜像中添加软件。导入完成后,软件将添加到镜像的 meta-data 中,并显示在工作台创建页面中。
- 点 Software 选项卡。
- 点添加软件按钮。
-
点 Edit (
)。
- 输入软件名称。
- 输入软件版本。
-
点 Confirm (
)确认您的条目。
- 要添加其他软件,请点 Add software,填写相关字段并确认您的条目。
可选:在工作台镜像中添加软件包。导入完成后,软件包将添加到镜像的 meta-data 中,并显示在工作台创建页面中。
- 点 Packages 选项卡。
- 点 Add package 按钮。
-
点 Edit (
)。
-
输入软件包名称。例如,如果要自动包含数据科学管道 V2,作为运行时配置,请输入
odh-elyra
。 -
输入软件包版本。例如,键入
3.16.7
。 -
点 Confirm (
)确认您的条目。
- 要添加附加软件包,请点 Add package,完成相关字段并确认您的条目。
- 点 Import。
验证
- 您导入的镜像显示在 Workbench 镜像 页面上的表中。
- 当用户创建工作台时,您的自定义镜像可供选择。
第 4 章 管理集群 PVC 大小 复制链接链接已复制到粘贴板!
4.1. 为集群配置默认 PVC 大小 复制链接链接已复制到粘贴板!
要配置如何在 OpenShift AI 集群中声明资源,您可以更改集群持久性卷声明(PVC)的默认大小,确保请求的存储与常见存储工作流匹配。PVC 是对集群中的资源请求,还可作为对资源的声明检查。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
更改 PVC 设置会重启工作台 pod,并使其在 30 秒内不可用。作为临时解决方案,建议您在组织的典型工作日外执行该操作。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 在 PVC 大小 下,以千兆字节或兆字节输入新大小。
- 点 Save Changes。
验证
- 使用您配置的默认存储大小创建新的 PVC。
4.2. 为集群恢复默认 PVC 大小 复制链接链接已复制到粘贴板!
要更改 OpenShift AI 集群中使用的资源大小,您可以恢复集群持久性卷声明(PVC)的默认大小。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 点恢复默认恢复默认 PVC 大小为 20GiB。
- 点 Save Changes。
验证
- 创建新的 PVC,其默认存储大小为 20 GiB。
第 5 章 管理连接类型 复制链接链接已复制到粘贴板!
在 Red Hat OpenShift AI 中,连接由环境变量及其对应值组成。数据科学家可以添加与项目资源(如工作台和模型服务器)的连接。
当数据科学家创建连接时,它们首先选择连接类型。连接类型是包含可自定义字段和可选默认值的模板。从连接类型开始会减少用户向数据源和接收器添加连接所需的时间。OpenShift AI 包含 S3 兼容对象存储数据库和基于 URI 的存储库的预安装连接类型。
作为 OpenShift AI 管理员,您可以管理机构中用户的连接类型,如下所示:
- 查看连接类型和预览用户连接表单
- 创建连接类型
- 复制现有连接类型
- 编辑连接类型
- 删除自定义连接类型
- 在项目中启用或禁用连接类型,以控制它在创建连接时作为用户可用的选项
5.1. 查看连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以查看项目中可用的连接类型。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
在 OpenShift AI 仪表板中点 Settings → Connection type。
这时将打开 Connection type 页面,显示当前项目的可用连接类型。
-
另外,您可以选择 Options 菜单
,然后点 Preview 来查看如何与连接类型关联的连接表单如何向用户显示。
5.2. 创建连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以为机构中的用户创建连接类型。
您可以创建新的连接类型,如此流程中所述,或者您可以创建现有连接类型的副本并编辑它,如 分离 连接类型 中所述。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 您知道您要创建的连接类型需要或可选的环境变量。
流程
在 OpenShift AI 仪表板中点 Settings → Connection type。
这时将打开 Connection type 页面,显示可用的连接类型。
- 点 Create connection type。
在 Create connection type 表单中,输入以下信息:
输入连接类型的名称。
资源名称会根据连接类型的名称生成。资源名称是 OpenShift 中底层资源的标签。
- (可选)编辑默认资源名称。请注意,创建连接类型后您无法更改资源名称。
- 另外,还可提供连接类型的描述。
至少指定一个 category 标签。默认情况下,类别标签是 database、型号 registry、对象存储和 URI。另外,您还可以通过在字段中输入新类别标签来创建新类别。您可以指定多个类别。
category 标签仅用于描述性目的。它允许您在 OpenShift AI 仪表板界面查看可用连接类型时,您和您中的用户对可用连接类型进行排序。
如果您希望连接类型出现在用户可用的连接列表中,例如,当它们配置工作台、模型服务器或管道时,请检查您 机构中的 Enable users to use this connection type when。
请注意,您也可以在创建后启用/禁用连接类型。
对于 Fields 部分,在添加与项目资源(如工作台或模型服务器)的连接时,添加您希望用户在表单中看到的字段和小节标题。
请注意,默认包括连接名称和描述字段,因此您不需要添加它们。
- (可选)选择一个模型服务兼容类型,以自动添加使用其对应的模型服务方法所需的字段。
- 点 Add field 添加字段来提示用户输入信息,并选择性地为这些字段分配默认值。
- 点 Add section 标题 来组织标题下的字段。
- 点 Preview 以打开连接表单的预览,因为它将出现在您的用户中。
- 点击 Save。
验证
- 在 Settings → Connection type 页面中,列表中会显示新的连接类型。
5.3. 复制连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以通过复制现有连接类型来创建新的连接类型,如此流程中所述,也可以创建新连接类型,如 创建连接类型 中所述。
如果要创建特定连接类型的版本,您可能还希望复制连接类型。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
- 在 OpenShift AI 仪表板中点 Settings → Connection type。
在可用的连接类型列表中,找到您要重复的连接类型。
另外,您可以选择 Options 菜单
,然后点 Preview 来查看如何向用户显示相关的连接表单。
点 Options 菜单
,然后点 Duplicate。
此时会显示 Create connection type 表单,其中包含您重复的连接类型的信息。
- 根据您的用例编辑表单。
- 点 Preview 以打开连接表单的预览,因为它将出现在您的用户中,并验证表单是否如预期显示。
- 点击 Save。
验证
在 Settings → Connection type 页面中,列表中的重复的连接类型会显示。
5.4. 编辑连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以编辑机构中用户的连接类型。
请注意,您无法编辑预安装的 OpenShift AI 的连接类型。相反,您可以选择复制预安装的连接类型,如 分离 连接类型 中所述。
当您编辑连接类型时,您的编辑不适用于之前创建的任何现有连接。如果要跟踪此连接类型的早期版本,请考虑复制它而不是编辑它。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 连接类型必须存在,且不能是预安装的连接类型(您无法编辑)。
流程
- 在 OpenShift AI 仪表板中点 Settings → Connection type。
- 在可用的连接类型列表中,找到您要编辑的连接类型。
点 Options 菜单
,然后点 Edit。
此时会显示 Edit 连接类型 表单。
- 编辑表单字段和部分。
- 点 Preview 以打开连接表单的预览,因为它将出现在您的用户中,并验证表单是否如预期显示。
- 点击 Save。
验证
在 Settings → Connection type 页面中,列表中的重复的连接类型会显示。
5.5. 启用连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以启用或禁用连接类型来控制它在用户创建连接时是否可作为选项提供给用户。
请注意,如果您禁用连接类型,则基于该连接类型创建的任何现有连接都无效。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 要启用的连接类型存在于项目中,可以预安装或由具有管理员特权的用户创建。
流程
- 在 OpenShift AI 仪表板中点 Settings → Connection type。
- 在可用连接类型列表中,找到您要启用或禁用的连接类型。
- 在包含连接类型的行中,单击 Enable 列中的切换。
验证
- 如果启用了连接类型,当用户添加与项目资源(例如,工作台或模型服务器)的连接时,可以选择它。
- 如果您禁用了连接类型,当用户向项目资源添加连接时,它不会显示在可用连接类型列表中。
5.6. 删除连接类型 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以删除您创建的连接类型。
请注意,您无法删除预安装的 OpenShift AI 的连接类型。相反,您可以选择禁用它们,以便它们对用户不可见,如 启用连接类型 中所述。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 连接类型必须存在,且不能是预安装的连接类型(您无法删除)。
流程
- 在 OpenShift AI 仪表板中点 Settings → Connection type。
在可用的连接类型列表中,找到您要删除的连接类型。
另外,您可以选择 Options 菜单
,然后点 Preview 来查看如何向用户显示相关的连接表单。
-
点 Options 菜单
,然后点 Delete。
- 在 Delete connection type? 表单中,输入您要删除的连接类型的名称,然后点 Delete。
验证
在 Settings → Connection type 页面中,连接类型不再显示在列表中。
第 6 章 管理存储类 复制链接链接已复制到粘贴板!
OpenShift 集群管理员使用存储类来描述集群中可用的不同类型的存储。这些存储类型可以代表不同的服务质量级别、备份策略或其他由集群管理员设置的其他自定义策略。
6.1. 关于持久性存储 复制链接链接已复制到粘贴板!
OpenShift AI 使用持久性存储来支持工作台、项目数据和模型培训。
持久存储通过 OpenShift 存储类和持久卷调配。卷置备和数据访问由访问模式决定。
了解存储类和访问模式可帮助您为用例选择正确的存储,并避免在多个工作台间共享数据时的潜在风险。
6.1.1. OpenShift AI 中的存储类 复制链接链接已复制到粘贴板!
OpenShift AI 中的存储类可从底层 OpenShift 集群获得。存储类定义置备持久性卷的方式,包括使用哪些存储后端以及置备的卷可以支持的访问模式。如需更多信息,请参阅 OpenShift 文档中的 动态置备。
集群管理员在 OpenShift 集群中创建和配置存储类。这些存储类置备支持一个或多个访问模式的持久性卷,具体取决于存储后端的功能。OpenShift AI 管理员随后启用了特定的存储类和访问模式,以便在 OpenShift AI 中使用。
在项目或工作台中添加集群存储时,您可以从任何启用的存储类和访问模式中进行选择。
6.1.2. 访问模式 复制链接链接已复制到粘贴板!
存储类创建可以支持不同访问模式的持久性卷,具体取决于存储后端。访问模式控制如何挂载卷,并由一个或多个工作台使用。如果存储类允许多个访问模式,您可以选择在请求存储时最适合您所需的访问模式。所有持久性卷都默认支持 ReadWriteOnce (RWO)
。
访问模式 | 描述 |
---|---|
|
存储可以一次附加到单个工作台或 pod,对于大多数工作负载来说是理想的选择。 |
|
存储可以同时附加到许多工作台。 |
|
存储可以以只读方式附加到多个工作台。 |
|
存储可以附加到具有读写权限的单个 pod。 |
6.2. 配置存储类设置 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以管理以下 OpenShift 集群存储类设置以便在 OpenShift AI 中使用:
- 显示名称
- 描述
- 访问模式
- 用户是否在创建或编辑集群存储时使用存储类
这些设置不会影响 OpenShift 中的存储类。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
在 OpenShift AI 仪表板中点 Settings → Storage classes。
Storage class 页面将打开,显示 OpenShift 中定义的集群的存储类。
- 要为用户启用或禁用存储类,请在包含存储类的行中点击 Enable 列中的切换。
要编辑存储类,在包含存储类的行中,点操作菜单(&&),然后选择 Edit。
这会打开 Edit storage class details 对话框。
- 可选:在 Display Name 字段中,更新存储类的名称。此名称仅用于 OpenShift AI,不会影响 OpenShift 中的存储类。
- 可选:在 Description 字段中,更新存储类的描述。此描述仅用于 OpenShift AI,不会影响 OpenShift 中的存储类。
对于支持多个访问模式的存储类,请选择 Access 模式 来定义如何访问卷。如需更多信息,请参阅关于持久性存储。
只有您的集群和 OpenShift AI 管理员为存储类启用的访问模式才可见。
- 点击 Save。
验证
- 如果您启用了存储类,当用户将集群存储添加到数据科学项目或工作台时,可以使用存储类来选择。
- 如果您禁用了存储类,当用户将集群存储添加到数据科学项目或工作台时,无法选择存储类。
- 如果您编辑了存储类名称,当用户将集群存储添加到数据科学项目或工作台时,会显示更新的存储类名称。
6.3. 为集群配置默认存储类 复制链接链接已复制到粘贴板!
作为 OpenShift AI 管理员,您可以将 OpenShift AI 的默认存储类配置为与 OpenShift 中的默认存储类不同。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
在 OpenShift AI 仪表板中点 Settings → Storage classes。
Storage class 页面将打开,显示 OpenShift 中定义的集群的存储类。
- 如果没有启用您要设置为默认值的存储类,请在包含存储类的行中点击 Enable 列中的切换。
- 要将存储类设置为 OpenShift AI 的默认值,请在包含存储类的行中,选择 Set 作为默认值。
验证
- 当用户在数据科学项目或工作台中添加集群存储时,会自动选择您配置的默认存储类。
6.4. 对象存储端点概述 复制链接链接已复制到粘贴板!
要确保在 OpenShift AI 中正确配置对象存储,您必须为不同类型的对象存储正确格式化端点。这些说明是用于为 Amazon S3、MinIO 或其他兼容 S3 的存储解决方案格式化端点,最大程度减少配置错误并确保兼容性。
正确格式化的端点可以连接并降低错误配置的风险。为您的对象存储类型使用适当的端点格式。不当格式化可能会导致连接错误或限制对存储资源的访问。
6.4.1. minio (On-Cluster) 复制链接链接已复制到粘贴板!
对于 on-cluster MinIO 实例,请使用本地端点 URL 格式。在配置 MinIO 端点时,请确保以下内容:
-
根据您的 MinIO 安全设置,使用
http://
或https://
为端点添加前缀。 - 包含集群 IP 或主机名,并在指定时加上端口号。
-
如果您的 MinIO 实例需要有一个(通常为
9000
),请使用端口号。
Example:
http://minio-cluster.local:9000
http://minio-cluster.local:9000
通过检查集群 DNS 设置和网络配置来验证 MinIO 实例是否可以访问集群中的。
6.4.2. Amazon S3 复制链接链接已复制到粘贴板!
在为 Amazon S3 配置端点时,请使用特定于区域的 URL。Amazon S3 端点通常采用以下格式:
-
使用
https://
为端点加上前缀。 -
格式为 &
lt;bucket-name>.s3.<region>.amazonaws.com
,其中<bucket-name
> 是 S3 存储桶的名称,<region
> 是 AWS 区域代码(如us-west-1
,eu-central-1
)。
Example:
https://my-bucket.s3.us-west-2.amazonaws.com
https://my-bucket.s3.us-west-2.amazonaws.com
为了提高安全性和合规性,请确保您的 Amazon S3 存储桶位于正确的区域中。
6.4.3. 其他 S3-Compatible 对象存储 复制链接链接已复制到粘贴板!
对于 Amazon S3 以外的 S3 兼容存储解决方案,请遵循您的供应商所需的特定端点格式。通常,这些端点包括以下项目:
-
供应商基本 URL,前缀为
https://
。 - bucket 名称和区域参数(由供应商指定)。
- 查看 S3 兼容供应商的文档,以确认所需的端点格式。
-
将 <
bucket-name
> 和 <region>
; 等占位符值替换为您的特定配置详情。
S3 兼容供应商错误格式化的端点可能会导致访问拒绝。始终在存储供应商文档中验证格式以确保兼容性。
6.4.4. 验证和故障排除 复制链接链接已复制到粘贴板!
配置端点后,通过 OpenShift AI 仪表板执行测试上传或直接访问对象存储来验证连接性。要进行故障排除,请检查以下项目:
- Network Accessibility: 确认端点可以从 OpenShift AI 集群访问。
- Authentication: 确保正确访问每种存储类型的凭证。
- 端点加速 :检查任何拼写错误或缺少组件的端点 URL 格式。
第 7 章 管理基本工作台 复制链接链接已复制到粘贴板!
7.1. 访问基本工作台的管理界面 复制链接链接已复制到粘贴板!
您可以使用管理界面控制 Red Hat OpenShift AI 环境中的基本工作台。
前提条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
要访问 OpenShift AI 中基本工作台的管理界面,请执行以下操作:
- 在 OpenShift AI 中,在左侧菜单的 Applications 部分中,单击 Enabled。
- 找到 Start basic workbench 标题,再点 Open application。
在打开的页面中,点 Administration 选项卡。
Administration 页面将打开。
验证
- 您可以看到基本工作台的管理界面。
7.2. 启动其他用户拥有的基本工作台 复制链接链接已复制到粘贴板!
OpenShift AI 管理员可以从管理界面为基本工作台的管理界面启动基本的工作台。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 您已启动 Start basic workbench 应用程序,如 启动基本工作台 中所述。
流程
- 在启动基本工作台时打开的页面上,点 Administration 选项卡。
在 Administration 选项卡中执行以下操作:
- 在 Users 部分中,找到您要启动的工作台的用户。
- 点相关用户旁的 Start workbench。
- 完成 Start a basic workbench 页面。
- 可选: 如果需要,选择 Start workbench in current tab。
点 Start workbench。
服务器启动后,您会看到以下行为之一:
- 如果您之前 在当前标签页中选择了 Start workbench,则 JupyterLab 接口会在 Web 浏览器的当前标签页中打开。
如果您之前未选中 Start workbench in current tab 复选框,则 Workbench 状态 对话框会提示您在新浏览器标签页或当前标签页中打开服务器。
JupyterLab 接口根据您的选择打开。
验证
- 此时会打开 JupyterLab 接口。
7.3. 访问其他用户拥有的基本工作台 复制链接链接已复制到粘贴板!
OpenShift AI 管理员可以访问由其他用户拥有的基本工作台,以更正配置错误或帮助他们对其环境进行故障排除。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 您已启动 Start basic workbench 应用程序,如 启动基本工作台 中所述。
- 您要访问的工作台正在运行。
流程
- 在启动基本工作台时打开的页面上,点 Administration 选项卡。
在 Administration 页面中,执行以下操作:
- 在 Users 部分中,找到工作台所属的用户。
- 点相关用户旁的 View server。
- 在 Workbench 控制面板 页面上,单击 Access workbench。
验证
- JupyterLab 接口在用户的工作台中打开。
7.4. 停止其他用户拥有的基本工作台 复制链接链接已复制到粘贴板!
OpenShift AI 管理员可以停止由其他用户拥有的基本工作台,以减少集群上的资源消耗,或作为从集群中删除用户及其资源的一部分。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 您已启动 Start basic workbench 应用程序,如 启动基本工作台 中所述。
- 要停止的工作台正在运行。
流程
- 在启动基本工作台时打开的页面上,点 Administration 选项卡。
停止一个或多个服务器。
如果要停止一个或多个特定服务器,请执行以下操作:
- 在 Users 部分中,找到工作台所属的用户。
要停止工作台,请执行以下操作之一:
- 点相关用户旁的操作菜单(ProductShortName),然后选择 Stop server。
点相关用户旁的 View server,然后点 Stop workbench。
此时会打开 Stop server 对话框。
- 点 Stop server。
如果要停止所有工作台,请执行以下操作:
- 点 Stop all workbenches 按钮。
- 点 OK 以确认停止所有服务器。
验证
- 当工作台停止时,每个服务器旁的 Stop server 链接都会变为 Start workbench 链接。
7.5. 停止闲置工作台 复制链接链接已复制到粘贴板!
您可以通过停止闲置(无需登录用户)的工作台来减少 OpenShift AI 部署中的资源使用量。当集群中资源需求很高时,这非常有用。默认情况下,闲置工作台不会在特定时间限制后停止。
如果您已将集群设置配置为在指定时间限制后从集群断开所有用户,那么此设置优先于闲置工作台时间限制。当用户的会话持续时间达到集群范围时间限制时,会在集群注销。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 在 Idle workbench 超时 下,选择 Stop idle workbenches。
- 以小时和 分钟 为单位输入时间限制,以便在闲置工作台停止时输入时间限制。
- 点 Save Changes。
验证
在 OpenShift 中,进入 Workloads → ConfigMaps,并在
redhat-ods-applications
项目中打开notebook-controller-culler-config
ConfigMap,以验证它是否包含以下剔除配置设置:-
ENABLE_CULLING
:指定是否启用或禁用 culling 功能(默认为false
)。 -
IDLENESS_CHECK_PERIOD
:轮询频率,以检查笔记本的最后已知活动(以分钟为单位)。 -
CULL_IDLE_TIME
:将不活跃笔记本扩展为零(以分钟为单位)的最大分配时间。
-
- 在您设置的时间限制时,闲置工作台会停止。
7.6. 添加工作台 pod 容限 复制链接链接已复制到粘贴板!
如果您希望将某些机器池专用于运行工作台 pod,您可以通过添加容限来允许将工作台 pod 调度到特定的节点上。通过污点和容限,节点可以控制哪些 pod 应该(或不应该)调度到节点上。如需更多信息,请参阅了解污点和容限。
如果要确保工作台放置在可以处理其需要的节点上,此功能很有用。通过防止其他工作负载在这些特定节点上运行,您可以确保需要处理大型工作台大小的用户可使用所需的资源。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 熟悉 OpenShift 污点和容限,如 了解污点和容限 所述。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 在 Workbench pod 容限 下,选择 Add a toleration to workbench pod,以允许调度到污点节点。
-
在 工作台 pod 字段的 Toleration 键中,输入容限键。key 是任意字符串,最多 253 个字符。键必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。例如,
仅限工作台
。 点 Save Changes。容限键在创建时应用到新的工作台 pod。
对于现有的 workbench pod,当工作台 pod 重启时应用 toleration 键。
如果您使用基本工作台,请参阅通过 重启工作台来更新工作台设置。如果您在数据科学项目中使用工作台,请参阅 启动工作台。
后续步骤
在 OpenShift 中,将匹配的污点键(具有任何值)添加到您要专用于工作台的机器池中。如需更多信息,请参阅使用节点污点控制 pod 放置。
如需更多信息,请参阅 将污点添加到机器池。
验证
- 在 OpenShift 控制台中,选择您的数据科学项目,然后点 Workloads → StatefulSet。您可以根据工作台当前是否启动或停止,查看正在运行多少个 pod,可以是零个或一。
- 搜索工作台 Pod 名称,然后点击名称以打开 pod 详情页面。
- 确认分配的 Node 和 Tolerations 正确。
7.7. 管理员对工作台中的常见问题进行故障排除 复制链接链接已复制到粘贴板!
如果您的用户在与 Jupyter、Jupyterbooks 或其工作台相关的 Red Hat OpenShift AI 中遇到错误,请阅读本节以了解导致问题的原因,以及如何解决这个问题。
如果在此处或发行注记中无法找到相关的信息,请联系红帽支持团队。
7.7.1. 用户在登录到 Jupyter 时收到 404: Page not found 错误 复制链接链接已复制到粘贴板!
问题
如果您配置了 OpenShift AI 用户组,则可能无法将用户名添加到 OpenShift AI 的默认用户组中。
诊断
检查用户是否是默认用户组的一部分。
查找允许访问 Jupyter 的组名称。
- 登录 OpenShift Web 控制台。
- 点 User Management → Groups。
点用户组的名称,如
rhods-users
。此时会显示该组的组详细信息页面。
- 点组的 Details 选项卡,并确认相关组的 Users 部分包含有权访问 Jupyter 的用户。
解决方案
- 如果用户没有添加到有权访问 Jupyter 的任何组中,请遵循 将用户添加到 OpenShift AI 用户组 来添加它们。
- 如果用户已添加到有访问 Jupyter 的组中,请联系红帽支持。
7.7.2. 用户的工作台不会启动 复制链接链接已复制到粘贴板!
问题
托管用户工作台的 OpenShift 集群可能无法访问充足的资源,否则工作台 Pod 可能出现问题。
诊断
- 登录 OpenShift Web 控制台。
删除并重启此用户的工作台 pod。
-
点 Workloads → Pods,将项目设置为
rhods-notebooks
。 搜索属于此用户的工作台 pod,例如
jupyter-nb-<username>
。如果工作台 pod 存在,则工作台 pod 中可能会出现间歇性故障。
如果用户的工作台 pod 不存在,请继续诊断。
-
点 Workloads → Pods,将项目设置为
根据所选工作台镜像所需的资源,检查 OpenShift 集群中当前可用的资源。
如果有足够 CPU 和 RAM 的 worker 节点可用于在集群中调度,请继续诊断过程。
- 检查工作台 pod 的状态。
解决方案
如果工作台 pod 出现间歇性故障:
- 删除属于用户的工作台 pod。
- 询问用户再次启动其工作台。
- 如果工作台没有足够的资源来运行所选工作台镜像,请在 OpenShift 集群中添加更多资源,或者选择较小的镜像大小。
如果工作台 pod 处于 FAILED 状态:
-
检索
jupyter-nb114
pod 的日志,并将其发送到红帽支持以进一步评估。 -
删除
jupyter-nb-*
pod。
-
检索
- 如果没有以前的解决方案,请联系红帽支持。
问题
用户可能已在其工作台上耗尽存储空间。
诊断
登录到 Jupyter 并启动属于用户问题的工作台。如果工作台没有启动,请按照以下步骤检查用户是否已耗尽存储空间:
- 登录 OpenShift Web 控制台。
-
点 Workloads → Pods,将项目设置为
rhods-notebooks
。 -
点属于此用户的工作台 pod,例如
jupyter-nb-<idp>-<username> github
。 点 Logs。如果您看到类似如下的行,用户已超过其可用容量:
Unexpected error while saving file: XXXX database or disk is full
Unexpected error while saving file: XXXX database or disk is full
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
解决方案
- 通过扩展其持久性卷来增加用户可用的存储: 扩展持久性卷
-
与用户合作识别可以从
/opt/app-root/src
目录中删除的文件,以释放其现有存储空间。
当您使用 JupyterLab 文件管理器删除文件时,文件将移到工作台的持久性存储中的隐藏的 /opt/app-root/src/.local/share/Trash/files
文件夹。要为工作台释放存储空间,您必须永久删除这些文件。
第 8 章 管理使用数据收集 复制链接链接已复制到粘贴板!
Red Hat OpenShift AI 管理员可以选择是否允许红帽收集有关集群中 OpenShift AI 使用的数据。收集这些数据可让红帽监控并改进我们的软件和支持。有关红帽收集的数据的详细信息,请参阅 OpenShift AI 的使用数据收集通知。
在 OpenShift 集群上安装 OpenShift AI 时,默认启用数据收集。
有关在集群中禁用此数据收集的说明,请参阅禁用使用数据收集。如果您在集群中禁用了数据收集,并且希望再次启用它,请参阅 启用使用数据收集。
8.1. OpenShift AI 的使用数据收集通告 复制链接链接已复制到粘贴板!
在您使用此红帽产品时,红帽可能会收集您所使用的软件的使用数据。通过这些数据,红帽可以监控软件并改进红帽产品和支持,包括识别、故障排除和响应影响用户的问题。
- 红帽收集哪些信息?
软件中的工具监控各种指标,此信息将向红帽传输。指标包括如下信息:
- 有关产品仪表板中启用的应用程序的信息。
- 使用的部署大小(即分配的 CPU 和内存资源)。
- 有关从产品仪表板访问的文档资源的信息。
- 使用的笔记本镜像的名称(即 Minimal Python、Standard Data Science 和其他镜像)。
- 在初始用户登录过程中生成的随机识别符,用于将数据与特定用户名相关联。
- 有关组件、功能和扩展的使用情况信息。
- 第三方服务提供商
- 红帽使用某些第三方服务提供商收集遥测数据。
- 安全性
- 红帽采用技术和组织措施来保护使用数据。
- 个人数据
- 红帽公司不会收集个人信息。如果红帽公司发现个人信息被意外地收到,红帽将根据红帽的隐私声明删除此类个人信息并处理此类个人信息。有关红帽隐私实践的更多信息,请参阅 红帽隐私声明。
- 启用和禁用使用数据
- 您可以按照禁用使用 数据收集或 启用使用数据收集 中的说明禁用或启用使用数据。
8.2. 启用使用数据收集 复制链接链接已复制到粘贴板!
Red Hat OpenShift AI 管理员可以选择是否允许红帽收集有关集群中 OpenShift AI 使用情况的数据。在 OpenShift 集群上安装 OpenShift AI 时,默认启用数据收集。如果您之前禁用了数据收集,您可以按照下列步骤重新启用它。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 找到使用数据收集部分。
- 选择 Allow collection usage data 复选框。
- 点 Save Changes。
验证
-
更新设置时会显示通知:
Settings changes saved.
8.3. 禁用使用数据收集 复制链接链接已复制到粘贴板!
Red Hat OpenShift AI 管理员可以选择是否允许红帽收集有关集群中 OpenShift AI 使用的数据。在 OpenShift 集群上安装 OpenShift AI 时,默认启用数据收集。
您可以按照以下步骤禁用数据收集。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
流程
- 在 OpenShift AI 仪表板中,点 Settings → Cluster settings。
- 找到使用数据收集部分。
- 清除 Allow collection usage data 复选框。
- 点 Save Changes。
验证
-
更新设置时会显示通知:
Settings changes saved.