前言
作为数据科学家,您可以使用 Docker 容器通过构建带有数据科学管道的可移植机器学习(ML)工作流来增强 OpenShift AI 上的数据科学项目。这可让您标准化和自动化机器学习工作流,以便您开发和部署数据科学模型。
例如,机器学习工作流中的步骤可能包括数据提取、数据处理、功能提取、模型培训、模型验证和模型服务等项目。自动化这些活动可让您的组织开发基于新接收的数据重新培训和更新模型的持续流程。这有助于解决与构建集成机器学习部署以及持续在生产中操作相关的挑战。
您还可以使用 Elyra JupyterLab 扩展在 JupyterLab 中创建并运行数据科学项目。如需更多信息,请参阅在 JupyterLab 中使用管道。
在 OpenShift AI 版本 2.9 中,数据科学管道基于 KubeFlow Pipelines (KFP)版本 2.0。如需更多信息,请参阅 迁移到数据科学管道 2.0。
要在 OpenShift AI 中使用数据科学管道,您需要以下组件:
- Pipeline 服务器 :附加到数据科学项目的服务器并托管您的数据科学管道。
管道 : 管道定义 机器学习工作流的配置以及工作流中的每个组件之间的关系。
- Pipeline 代码: YAML 文件中的管道定义。
- Pipeline 图 :图形显示管道运行中执行的步骤及其之间的关系。
Pipeline 试验 :您可以尝试不同管道配置的工作空间。您可以使用实验将运行组织到逻辑组中。
- 归档的管道试验:归档的管道试验。
- Pipeline 工件:由管道组件生成的输出工件。
- Pipeline 执行 :管道执行管道中的任务。
管道运行 :管道的执行。
- Active run:正在执行或停止的管道运行。
- 调度的运行:调度至少执行一次的管道运行。
- 归档运行:归档的管道运行。
此功能基于 Kubeflow Pipelines 2.0。使用最新的 Kubeflow Pipelines 2.0 SDK 在 Python 代码中构建您的数据科学管道。构建管道后,使用 SDK 将它编译到 Intermediate Representation (IR) YAML 文件中。OpenShift AI 用户界面允许您跟踪和管理管道和管道运行。您可以使用版本控制来管理 OpenShift AI 中管道的增量更改。这可让您迭代开发和部署管道,保留更改的记录。
您可以将管道工件存储在 S3 兼容对象存储桶中,以便不使用本地存储。要做到这一点,您必须首先对存储帐户上的 S3 存储桶配置写入访问权限。