第 1 章 管理数据科学项目


1.1. 配置管道服务器

在 OpenShift AI 中成功创建管道前,您必须配置管道服务器。此任务包括配置管道工件和数据存储位置。

注意

在为管道服务器配置连接时,您不需要指定任何存储目录。当您导入管道时,/pipelines 文件夹会在存储桶的根目录中创建,其中包含管道的 YAML 文件。如果您上传同一管道的新版本,则会将具有不同 ID 的新 YAML 文件添加到 /pipelines 文件夹中。

运行管道时,工件会存储在存储桶的根文件夹中的 /pipeline-name 文件夹中。

重要

如果您使用外部 MySQL 数据库并升级到 OpenShift AI 2.9 或更高版本,数据库将迁移到数据科学管道 2.0 格式,使其与早期版本的 OpenShift AI 不兼容。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如 rhoai-usersrhoai-admins )的一部分。
  • 您已创建了可添加管道服务器的数据科学项目。
  • 您有一个现有的 S3 兼容对象存储桶,并且您已在存储帐户上配置了 S3 存储桶的写入访问权限。
  • 如果您要为生产环境的管道工作负载配置管道服务器,则有一个现有的外部 MySQL 或 MariaDB 数据库。
  • 如果您要配置带有外部 MySQL 数据库的管道服务器,您的数据库必须至少使用 MySQL 版本 5.x。但是,红帽建议您使用 MySQL 版本 8.x。

    注意

    ML Metadata 组件需要 mysql_native_password 身份验证插件,才能成功连接到您的数据库。MySQL 8.4 及之后的版本中默认禁用 mysql_native_password。如果您的数据库使用 MySQL 8.4 或更高版本,您必须更新 MySQL 部署以启用 mysql_native_password 插件。

    有关启用 mysql_native_password 插件的更多信息,请参阅 MySQL 文档中的 原生可插拔身份验证

  • 如果您要使用 MariaDB 数据库配置管道服务器,您的数据库必须使用 MariaDB 版本 10.3 或更高版本。但是,红帽建议您至少使用 MariaDB 版本 10.5。

流程

  1. 在 OpenShift AI 仪表板中,点 Data Science Projects

    Data Science Projects 页面将打开。

  2. 点您要为其配置管道服务器的项目名称。

    此时会打开项目详情页面。

  3. Pipelines 选项卡。
  4. 单击 Configure pipeline server

    此时会出现 Configure pipeline server 对话框。

  5. Object storage connection 部分中,为必填字段提供值:

    1. Access key 字段中,输入 S3 兼容对象存储供应商的访问密钥 ID。
    2. Secret key 字段中,为您指定的 S3 兼容对象存储帐户输入 secret 访问密钥。
    3. Endpoint 字段中,输入 S3 兼容对象存储桶的端点。
    4. Region 字段中,输入 S3 兼容对象存储帐户的默认区域。
    5. Bucket 字段中,输入 S3 兼容对象存储桶的名称。

      重要

      如果您指定了不正确的连接设置,则无法更新同一管道服务器上的这些设置。因此,您必须删除管道服务器并配置另一个服务器。

      如果要使用管道中任务生成的现有工件,您可以使用 kfp.dsl.importer 组件从其 URI 导入工件。您只能将这些工件导入到您在管道服务器配置中的 Bucket 字段中定义的 S3 兼容对象存储桶。有关 kfp.dsl.importer 组件的更多信息,请参阅 Special Case: Importer 组件

  6. Database 部分中,点 Show advanced database options 来指定用于存储管道数据的数据库,并选择以下一组操作:

    • 选择 Use default database stored on your cluster,以在项目中部署 MariaDB 数据库。

      重要

      存储在集群 选项中的 Use default 数据库 仅用于开发和测试目的。对于生产环境管道工作负载,请选择 Connect to external MySQL 数据库 选项来使用外部 MySQL 或 MariaDB 数据库。

    • 选择 Connect to external MySQL 数据库,来向管道服务器可访问的外部 MySQL 或 MariaDB 数据库添加新的连接。

      1. Host 字段中,输入数据库的主机名。
      2. Port 字段中,输入数据库的端口。
      3. Username 字段中,输入连接到数据库的默认用户名。
      4. Password 字段中,输入默认用户帐户的密码。
      5. Database 字段中,输入数据库名称。
  7. 单击 Configure pipeline server

验证

在项目的 Pipelines 选项卡中:

  • Import pipeline 按钮可用。
  • 当您点操作菜单(autotune),然后点 View pipeline server configuration 时,会显示管道服务器详情。

要配置带有外部 Amazon Relational Database Service (RDS)数据库的管道服务器,您必须将 OpenShift AI 配置为信任由其证书颁发机构(CA)发布的证书。

重要

如果您要为生产环境的管道工作负载配置管道服务器,红帽建议您使用外部 MySQL 或 MariaDB 数据库。

先决条件

  • 具有集群管理员特权。
  • 您已登陆到 Red Hat OpenShift AI。
  • 您已创建了可添加管道服务器的数据科学项目。
  • 您有一个现有的 S3 兼容对象存储桶,并且已将存储帐户配置为对 S3 存储桶的写入访问权限。

流程

  1. 在配置管道服务器前,从 Amazon RDS:AWS Region 的证书捆绑包,下载数据库在其中创建区域的 PEM 证书捆绑包。

    例如,如果数据库是在 us-east-1 区域中创建的,请下载 us-east-1-bundle.pem

  2. 在终端窗口中,登录部署了 OpenShift AI 的 OpenShift 集群。

    oc login api.<cluster_name>.<cluster_domain>:6443 --web
    Copy to Clipboard Toggle word wrap
  3. 运行以下命令来获取当前的 OpenShift AI 可信 CA 配置并将其存储在新文件中:

    oc get dscinitializations.dscinitialization.opendatahub.io default-dsci -o json | jq '.spec.trustedCABundle.customCABundle' > /tmp/my-custom-ca-bundles.crt
    Copy to Clipboard Toggle word wrap
  4. 运行以下命令,将您下载的 PEM 证书捆绑包附加到新的自定义 CA 配置文件中:

    cat us-east-1-bundle.pem >> /tmp/my-custom-ca-bundles.crt
    Copy to Clipboard Toggle word wrap
  5. 运行以下命令,将 OpenShift AI 可信 CA 配置更新为信任新自定义 CA 配置文件中包含的 CA 发布的证书:

    oc patch dscinitialization default-dsci --type='json' -p='[{"op":"replace","path":"/spec/trustedCABundle/customCABundle","value":"'"$(awk '{printf "%s\\n", $0}' /tmp/my-custom-ca-bundles.crt)"'"}]'
    Copy to Clipboard Toggle word wrap
  6. 配置管道服务器,如 配置管道服务器 中所述。

验证

  • 管道服务器成功启动。
  • 您可以导入并运行数据科学管道。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat