第 1 章 管理数据科学项目


1.1. 配置管道服务器

在 OpenShift AI 中成功创建管道前,您必须配置管道服务器。此任务包括配置管道工件和数据存储位置。

注意

在为管道服务器配置连接时,您不需要指定任何存储目录。当您导入管道时,/pipelines 文件夹会在存储桶的根目录中创建,其中包含管道的 YAML 文件。如果您上传同一管道的新版本,则会将具有不同 ID 的新 YAML 文件添加到 /pipelines 文件夹中。

运行管道时,工件会存储在存储桶的根文件夹中的 /pipeline-name 文件夹中。

重要

如果您使用外部 MySQL 数据库,并使用数据科学管道 2.0 升级到 OpenShift AI,数据库将迁移到数据科学管道 2.0 格式,使其与早期版本的 OpenShift AI 不兼容。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 您已创建了可添加管道服务器的数据科学项目。
  • 您有一个现有的 S3 兼容对象存储桶,并且您已在存储帐户上配置了 S3 存储桶的写入访问权限。
  • 如果您要为生产环境的管道工作负载配置管道服务器,则有一个现有的外部 MySQL 或 MariaDB 数据库。
  • 如果您要配置带有外部 MySQL 数据库的管道服务器,您的数据库必须至少使用 MySQL 版本 5.x。但是,红帽建议您使用 MySQL 版本 8.x。

    注意

    ML Metadata 组件需要 mysql_native_password 身份验证插件,才能成功连接到您的数据库。MySQL 8.4 及之后的版本中默认禁用 mysql_native_password。如果您的数据库使用 MySQL 8.4 或更高版本,您必须更新 MySQL 部署以启用 mysql_native_password 插件。

    有关启用 mysql_native_password 插件的更多信息,请参阅 MySQL 文档中的 原生可插拔身份验证

  • 如果您要使用 MariaDB 数据库配置管道服务器,您的数据库必须使用 MariaDB 版本 10.3 或更高版本。但是,红帽建议您至少使用 MariaDB 版本 10.5。

流程

  1. 在 OpenShift AI 仪表板中点 Data Science projects

    Data Science 项目页将打开。

  2. 点您要为其配置管道服务器的项目名称。

    此时会打开项目详情页面。

  3. Pipelines 选项卡。
  4. 单击 Configure pipeline server

    此时会打开 Configure pipeline server 对话框。

  5. Object storage connection 部分中,为必填字段提供值:

    1. Access key 字段中,输入 S3 兼容对象存储供应商的访问密钥 ID。
    2. Secret key 字段中,为您指定的 S3 兼容对象存储帐户输入 secret 访问密钥。
    3. Endpoint 字段中,输入 S3 兼容对象存储桶的端点。
    4. Region 字段中,输入 S3 兼容对象存储帐户的默认区域。
    5. Bucket 字段中,输入 S3 兼容对象存储桶的名称。

      重要

      如果您指定了不正确的连接设置,则无法更新同一管道服务器上的这些设置。因此,您必须删除管道服务器并配置另一个服务器。

      如果要使用管道中任务生成的现有工件,您可以使用 kfp.dsl.importer 组件从其 URI 导入工件。您只能将这些工件导入到您在管道服务器配置中的 Bucket 字段中定义的 S3 兼容对象存储桶。有关 kfp.dsl.importer 组件的更多信息,请参阅 Special Case: Importer 组件

  6. Advanced settings 显示 Database,Pipeline 定义存储, 和 Pipeline 缓存 部分。
  7. Database 部分,选择以下选项之一来指定管道元数据和运行信息的位置:

    • 选择 集群中的 Default 数据库 以在项目中部署 MariaDB 数据库。

      重要

      cluster 选项中的 Default 数据库 仅用于开发和测试目的。对于生产环境管道工作负载,请选择 External MySQL 数据库 选项来使用外部 MySQL 或 MariaDB 数据库。

    • 选择 External MySQL 数据库,向管道服务器可访问的外部 MySQL 或 MariaDB 数据库添加新连接。

      1. Host 字段中,输入数据库主机名。
      2. Port 字段中输入数据库端口。
      3. Username 字段中,输入连接到数据库的默认用户名。
      4. Password 字段中,输入默认用户帐户的密码。
      5. Database 字段中,输入数据库名称。
  8. 可选:默认情况下,管道定义存储为 Kubernetes 资源,启用版本控制、GitOps 工作流以及与 OpenShift GitOps 或类似工具的集成。要在内部数据库中存储管道定义,请清除 Pipeline 定义 存储部分的 Kubernetes 复选框中的 Store pipeline 定义
  9. 可选: 默认情况下,缓存可在管道和任务级别进行配置。要禁用管道服务器中所有管道和任务的缓存并覆盖任何管道级别和任务级缓存设置,请在 Pipeline 缓存部分为每个管道和任务配置 Allow 缓存 复选框。
  10. 单击 Configure pipeline server

验证

在项目的 Pipelines 选项卡中:

  • Import pipeline 按钮可用。
  • 当您点操作菜单(autotune),然后点 Manage pipeline server configuration,则会显示管道服务器详情。

要配置带有外部 Amazon Relational Database Service (RDS)数据库的管道服务器,您必须将 OpenShift AI 配置为信任由其证书颁发机构(CA)发布的证书。

重要

如果您要为生产环境的管道工作负载配置管道服务器,红帽建议您使用外部 MySQL 或 MariaDB 数据库。

先决条件

  • 具有集群管理员特权。
  • 您已登陆到 Red Hat OpenShift AI。
  • 您已创建了可添加管道服务器的数据科学项目。
  • 您有一个现有的 S3 兼容对象存储桶,并且已将存储帐户配置为对 S3 存储桶的写入访问权限。

流程

  1. 在配置管道服务器前,从 Amazon RDS:AWS Region 的证书捆绑包,下载数据库在其中创建区域的 PEM 证书捆绑包。

    例如,如果数据库是在 us-east-1 区域中创建的,请下载 us-east-1-bundle.pem

  2. 在终端窗口中,登录部署了 OpenShift AI 的 OpenShift 集群。

    oc login api.<cluster_name>.<cluster_domain>:6443 --web
  3. 运行以下命令来获取当前的 OpenShift AI 可信 CA 配置并将其存储在新文件中:

    oc get dscinitializations.dscinitialization.opendatahub.io default-dsci -o json | jq '.spec.trustedCABundle.customCABundle' > /tmp/my-custom-ca-bundles.crt
  4. 运行以下命令,将您下载的 PEM 证书捆绑包附加到新的自定义 CA 配置文件中:

    cat us-east-1-bundle.pem >> /tmp/my-custom-ca-bundles.crt
  5. 运行以下命令,将 OpenShift AI 可信 CA 配置更新为信任新自定义 CA 配置文件中包含的 CA 发布的证书:

    oc patch dscinitialization default-dsci --type='json' -p='[{"op":"replace","path":"/spec/trustedCABundle/customCABundle","value":"'"$(awk '{printf "%s\\n", $0}' /tmp/my-custom-ca-bundles.crt)"'"}]'
  6. 配置管道服务器,如 配置管道服务器 中所述。

验证

  • 管道服务器成功启动。
  • 您可以导入并运行数据科学管道。
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部