2.3. 使用连接存储数据
在工作台中添加连接,将项目连接到数据输入和对象存储桶。连接是一个资源,其中包含连接到数据源或数据接收器(如 AWS S3 对象存储存储桶)所需的配置参数。
在本教程中,您将运行一个提供的脚本,为您创建以下本地 Minio 存储桶:
- My Storage - 使用此存储桶存储您的模型和数据。您可以为笔记本和模型服务器重复使用此存储桶及其连接。
- Pipelines Artifacts - 使用这个存储桶作为管道工件的存储。创建管道服务器时需要管道工件存储桶。在本教程中,创建此存储桶以将其与第一个存储桶分离,以实现清晰性。
虽然您可以同时使用一个存储桶来满足这两个目的(提供模型和数据以及存储管道工件),但本教程遵循最佳实践,并将单独的存储存储桶用于每个目的。
提供的脚本还会创建与每个存储桶的连接。
要运行安装本地 MinIO 存储存储桶并创建与它们的连接的脚本,请按照 运行脚本来安装本地对象存储桶并创建连接。
如果要使用您自己的 S3 兼容对象存储桶(而不是使用提供的脚本),请按照 创建连接到您自己的 S3 兼容对象存储 的步骤进行操作。
2.3.1. 运行脚本以安装本地对象存储存储桶并创建连接
为方便起见,运行自动完成这些任务的脚本(由以下步骤提供):
- 在项目中创建 Minio 实例。
- 在该 Minio 实例中创建两个存储存储桶。
- 为您的 Minio 实例生成随机用户 id 和密码。
- 在项目中创建两个连接,每个存储桶对应一个,它们使用相同的凭据。
- 为服务网格功能安装所需的网络策略。
该脚本基于 部署 Minio 的指南。
脚本创建的基于 Minio 的对象存储 不适用于生产环境。
如果要连接到您自己的存储,请参阅 创建到您自己的 S3 兼容对象存储的连接。
先决条件
您必须知道 data Science 项目的 OpenShift 资源名称,以便在正确的项目中运行提供的脚本。获取项目的资源名称:
在 OpenShift AI 仪表板中,选择 Data Science Projects,然后单击项目名称旁边的 ? 图标。此时会出现一个文本框,其中包含有关项目的信息,包括其资源名称:

以下流程描述了如何从 OpenShift 控制台运行脚本。如果您在 OpenShift 中知识,并可从命令行访问集群,而不是按照以下流程中的步骤,您可以使用以下命令运行脚本:
oc apply -n <your-project-name/> -f https://github.com/rh-aiservices-bu/fraud-detection/raw/main/setup/setup-s3.yaml
流程
在 OpenShift AI 仪表板中,点应用程序启动程序图标,然后选择 OpenShift Console 选项。
在 OpenShift 控制台中,单击顶部导航栏中的 +。
从项目列表中选择您的项目。
验证您选择了了正确的项目。
复制以下代码并将其粘贴到 Import YAML 编辑器。
注意此代码获取并应用
setup-s3-no-sa.yaml
文件。--- apiVersion: v1 kind: ServiceAccount metadata: name: demo-setup --- apiVersion: rbac.authorization.k8s.io/v1 kind: RoleBinding metadata: name: demo-setup-edit roleRef: apiGroup: rbac.authorization.k8s.io kind: ClusterRole name: edit subjects: - kind: ServiceAccount name: demo-setup --- apiVersion: batch/v1 kind: Job metadata: name: create-s3-storage spec: selector: {} template: spec: containers: - args: - -ec - |- echo -n 'Setting up Minio instance and connections' oc apply -f https://github.com/rh-aiservices-bu/fraud-detection/raw/main/setup/setup-s3-no-sa.yaml command: - /bin/bash image: image-registry.openshift-image-registry.svc:5000/openshift/tools:latest imagePullPolicy: IfNotPresent name: create-s3-storage restartPolicy: Never serviceAccount: demo-setup serviceAccountName: demo-setup
- 点 Create。
验证
在 OpenShift 控制台中,您应该看到 "Resources successfully created" 信息以及列出的以下资源:
-
demo-setup
-
demo-setup-edit
-
create-s3-storage
-
在 OpenShift AI 仪表板中:
- 选择 Data Science Projects,然后单击项目的名称,Fr aud 检测。
点 Connections。您应该会看到列出的两个连接:
My Storage
和Pipeline Artifacts
。
后续步骤
如果要完成本教程的管道部分,请参阅启用数据科学管道。
否则,请跳至 创建工作台。
2.3.2. 创建到您自己的 S3 兼容对象存储的连接
如果您已有用于本教程的 S3 兼容存储存储桶,您必须创建一个连接到一个存储桶来保存您的数据和模型。如果要完成本教程的管道部分,请创建与不同存储桶的连接来保存管道工件。
如果您没有自己的 s3 兼容存储,或者想使用可处理的本地 Minio 实例,请跳过此部分,并按照 运行脚本安装本地对象存储桶并创建连接 中的步骤。提供的脚本会自动为您完成以下任务:在项目中创建 Minio 实例,在该 Minio 实例中创建两个存储存储桶,在项目中创建两个连接,每个存储桶都使用相同的凭证,并为服务网格功能安装所需的网络策略。
先决条件
要创建与现有 S3 兼容存储桶的连接,您需要存储存储桶的以下凭证信息:
- 端点 URL
- 访问密钥
- Secret 密钥
- 区域
- bucket 名称
如果您没有此信息,请联系您的存储管理员。
流程
创建用于保存数据和模型的连接:
- 在 OpenShift AI 仪表板中,导航到数据科学项目的页面。
点 Connections 选项卡,然后点 Create connection。
- 在 Add connection modal 中,对于 Connection 类型,选择 S3 兼容对象存储 - v1。
完成 Add connection 表单,并将您的连接命名为 My Storage。此连接用于保存您的个人工作,包括数据和型号。
- 点 Create。
创建用于保存管道工件的连接:
注意如果您不打算完成教程的 pipelines 部分,您可以跳过这一步。
- 点 Add connection。
完成表单,并将您的连接 Pipeline Artifacts 命名为。
- 点 Create。
验证
在项目的 Connections 选项卡中,检查是否列出了您的连接。

后续步骤
如果要完成本教程的管道部分,请参阅启用数据科学管道。
否则,请跳至 创建工作台。