第 1 章 管理数据科学项目
1.1. 配置管道服务器 复制链接链接已复制到粘贴板!
在 OpenShift AI 中成功创建管道前,您必须配置管道服务器。此任务包括配置管道工件和数据存储位置。
在为管道服务器配置连接时,您不需要指定任何存储目录。当您导入管道时,/pipelines
文件夹会在存储桶的根目录中创建,其中包含管道的 YAML 文件。如果您上传同一管道的新版本,则会将具有不同 ID 的新 YAML 文件添加到
/pipelines
文件夹中。
运行管道时,工件会存储在存储桶的根文件夹中的 /pipeline-name
文件夹中。
如果您使用外部 MySQL 数据库并升级到 OpenShift AI 2.9 或更高版本,数据库将迁移到数据科学管道 2.0 格式,使其与早期版本的 OpenShift AI 不兼容。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users
或rhoai-admins
)的一部分。 - 您已创建了可添加管道服务器的数据科学项目。
- 您有一个现有的 S3 兼容对象存储桶,并且您已在存储帐户上配置了 S3 存储桶的写入访问权限。
- 如果您要为生产环境的管道工作负载配置管道服务器,则有一个现有的外部 MySQL 或 MariaDB 数据库。
如果您要配置带有外部 MySQL 数据库的管道服务器,您的数据库必须至少使用 MySQL 版本 5.x。但是,红帽建议您使用 MySQL 版本 8.x。
注意ML Metadata 组件需要
mysql_native_password
身份验证插件,才能成功连接到您的数据库。MySQL 8.4 及之后的版本中默认禁用mysql_native_password
。如果您的数据库使用 MySQL 8.4 或更高版本,您必须更新 MySQL 部署以启用mysql_native_password
插件。有关启用
mysql_native_password
插件的更多信息,请参阅 MySQL 文档中的 原生可插拔身份验证。- 如果您要使用 MariaDB 数据库配置管道服务器,您的数据库必须使用 MariaDB 版本 10.3 或更高版本。但是,红帽建议您至少使用 MariaDB 版本 10.5。
流程
在 OpenShift AI 仪表板中,点 Data Science Projects。
Data Science Projects 页面将打开。
点您要为其配置管道服务器的项目名称。
此时会打开项目详情页面。
- 点 Pipelines 选项卡。
单击 Configure pipeline server。
此时会出现 Configure pipeline server 对话框。
在 Object storage connection 部分中,为必填字段提供值:
- 在 Access key 字段中,输入 S3 兼容对象存储供应商的访问密钥 ID。
- 在 Secret key 字段中,为您指定的 S3 兼容对象存储帐户输入 secret 访问密钥。
- 在 Endpoint 字段中,输入 S3 兼容对象存储桶的端点。
- 在 Region 字段中,输入 S3 兼容对象存储帐户的默认区域。
在 Bucket 字段中,输入 S3 兼容对象存储桶的名称。
重要如果您指定了不正确的连接设置,则无法更新同一管道服务器上的这些设置。因此,您必须删除管道服务器并配置另一个服务器。
如果要使用管道中任务生成的现有工件,您可以使用 kfp.dsl.importer 组件从其 URI 导入工件。您只能将这些工件导入到您在管道服务器配置中的 Bucket 字段中定义的 S3 兼容对象存储桶。有关
kfp.dsl.importer
组件的更多信息,请参阅 Special Case: Importer 组件。
在 Database 部分中,点 Show advanced database options 来指定用于存储管道数据的数据库,并选择以下一组操作:
选择 Use default database stored on your cluster,以在项目中部署 MariaDB 数据库。
重要存储在集群 选项中的 Use default 数据库 仅用于开发和测试目的。对于生产环境管道工作负载,请选择 Connect to external MySQL 数据库 选项来使用外部 MySQL 或 MariaDB 数据库。
选择 Connect to external MySQL 数据库,来向管道服务器可访问的外部 MySQL 或 MariaDB 数据库添加新的连接。
- 在 Host 字段中,输入数据库的主机名。
- 在 Port 字段中,输入数据库的端口。
- 在 Username 字段中,输入连接到数据库的默认用户名。
- 在 Password 字段中,输入默认用户帐户的密码。
- 在 Database 字段中,输入数据库名称。
- 单击 Configure pipeline server。
验证
在项目的 Pipelines 选项卡中:
- Import pipeline 按钮可用。
- 当您点操作菜单(autotune),然后点 View pipeline server configuration 时,会显示管道服务器详情。
1.1.1. 使用外部 Amazon RDS 数据库配置管道服务器 复制链接链接已复制到粘贴板!
要配置带有外部 Amazon Relational Database Service (RDS)数据库的管道服务器,您必须将 OpenShift AI 配置为信任由其证书颁发机构(CA)发布的证书。
如果您要为生产环境的管道工作负载配置管道服务器,红帽建议您使用外部 MySQL 或 MariaDB 数据库。
先决条件
- 具有集群管理员特权。
- 您已登陆到 Red Hat OpenShift AI。
- 您已创建了可添加管道服务器的数据科学项目。
- 您有一个现有的 S3 兼容对象存储桶,并且已将存储帐户配置为对 S3 存储桶的写入访问权限。
流程
在配置管道服务器前,从 Amazon RDS:AWS Region 的证书捆绑包,下载数据库在其中创建区域的 PEM 证书捆绑包。
例如,如果数据库是在
us-east-1
区域中创建的,请下载us-east-1-bundle.pem
。在终端窗口中,登录部署了 OpenShift AI 的 OpenShift 集群。
oc login api.<cluster_name>.<cluster_domain>:6443 --web
oc login api.<cluster_name>.<cluster_domain>:6443 --web
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令来获取当前的 OpenShift AI 可信 CA 配置并将其存储在新文件中:
oc get dscinitializations.dscinitialization.opendatahub.io default-dsci -o json | jq '.spec.trustedCABundle.customCABundle' > /tmp/my-custom-ca-bundles.crt
oc get dscinitializations.dscinitialization.opendatahub.io default-dsci -o json | jq '.spec.trustedCABundle.customCABundle' > /tmp/my-custom-ca-bundles.crt
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令,将您下载的 PEM 证书捆绑包附加到新的自定义 CA 配置文件中:
cat us-east-1-bundle.pem >> /tmp/my-custom-ca-bundles.crt
cat us-east-1-bundle.pem >> /tmp/my-custom-ca-bundles.crt
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令,将 OpenShift AI 可信 CA 配置更新为信任新自定义 CA 配置文件中包含的 CA 发布的证书:
oc patch dscinitialization default-dsci --type='json' -p='[{"op":"replace","path":"/spec/trustedCABundle/customCABundle","value":"'"$(awk '{printf "%s\\n", $0}' /tmp/my-custom-ca-bundles.crt)"'"}]'
oc patch dscinitialization default-dsci --type='json' -p='[{"op":"replace","path":"/spec/trustedCABundle/customCABundle","value":"'"$(awk '{printf "%s\\n", $0}' /tmp/my-custom-ca-bundles.crt)"'"}]'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 配置管道服务器,如 配置管道服务器 中所述。
验证
- 管道服务器成功启动。
- 您可以导入并运行数据科学管道。