2.3. 使用连接存储数据
如果要将项目连接到数据输入和对象存储存储桶,请将连接添加到工作台。连接是一个资源,其中包含连接到数据源或数据接收器(如 AWS S3 对象存储存储桶)所需的配置参数。
在本教程中,您需要两个 S3 兼容对象存储桶,如 Ceph、Minio 或 AWS S3。您可以使用自己的存储存储桶或运行提供的脚本来为您创建以下本地 Minio 存储桶:
- My Storage - 使用此存储桶来存储您的模型和数据。您可以为笔记本和模型服务器重复使用此存储桶及其连接。
- Pipelines Artifacts - 使用这个存储桶作为管道工件的存储。创建管道服务器时需要管道工件存储桶。在本教程中,请创建存储桶将其与第一个存储桶分开以实现清晰性。
另外,您必须创建与每个存储桶的连接。本教程有两个选项,具体取决于您要使用自己的存储存储桶,或使用脚本来创建本地 Minio 存储桶:
- 如果要使用自己的 S3 兼容对象存储桶,请创建与它们的连接,如 创建与您自己的 S3 兼容对象存储的连接 中所述。
- 如果要运行一个安装本地 MinIO 存储桶并创建连接的脚本,请按照 运行脚本来安装本地对象存储存储桶并创建连接。
虽然您可以同时使用一个存储桶来满足这两个目的(提供模型和数据以及存储管道工件),但本教程遵循最佳实践,并将单独的存储存储桶用于每个目的。
2.3.1. 创建到您自己的 S3 兼容对象存储的连接 复制链接链接已复制到粘贴板!
如果您已有用于本教程的 S3 兼容存储存储桶,您必须创建一个连接到一个存储桶来保存您的数据和模型。如果要完成本教程的管道部分,请创建与不同存储桶的连接来保存管道工件。
如果您没有自己的 s3 兼容存储,或者想使用可处理的本地 Minio 实例,请跳过此部分,并按照 运行脚本安装本地对象存储桶并创建连接 中的步骤。提供的脚本会自动为您完成以下任务:在项目中创建 Minio 实例,在该 Minio 实例中创建两个存储存储桶,在项目中创建两个连接,每个存储桶都使用相同的凭证,并为服务网格功能安装所需的网络策略。
先决条件
要创建与现有 S3 兼容存储桶的连接,您需要存储存储桶的以下凭证信息:
- 端点 URL
- access key
- Secret 密钥
- 区域
- bucket 名称
如果您没有这些信息,请联系您的存储管理员。
流程
创建用于保存数据和模型的连接:
- 在 OpenShift AI 仪表板中,导航到数据科学项目的页面。
点 Connections 选项卡,然后点 Add connection。
- 在 Add connection modal 中,对于 Connection 类型,选择 S3 兼容对象存储 - v1。
完成 Add connection 表单,并将您的连接命名为 My Storage。此连接用于保存您的个人工作,包括数据和型号。
注意跳过 Connected workbench 项。您可以在后面的部分中添加与工作台的连接。
- 点 Add connection。
创建用于保存管道工件的连接:
注意如果您不打算完成教程中的管道部分,您可以跳过这一步。
- 点 Add connection。
完成表单,并将您的连接 Pipeline Artifacts 命名为。
注意跳过 Connected workbench 项。您可以在后面的部分中添加与工作台的连接。
- 点 Add connection。
验证
在项目的 Connections 选项卡中,检查是否列出了您的连接。
后续步骤
如果要完成本教程的管道部分,请参阅启用数据科学管道。
否则,请跳至 创建工作台。
2.3.2. 运行脚本以安装本地对象存储存储桶并创建连接 复制链接链接已复制到粘贴板!
为方便起见,运行脚本(在以下流程中提供)用于自动完成这些任务:
- 在项目中创建 Minio 实例。
- 在 Minio 实例中创建两个存储存储桶。
- 为您的 Minio 实例生成一个随机用户 ID 和密码。
- 在项目中创建两个连接,每个存储桶对应一个,它们使用相同的凭据。
- 为服务网格功能安装所需的网络策略。
该脚本基于 部署 Minio 的指南。
基于 Minio 的对象存储 不是用于生产用途 的。
如果要连接到您自己的存储,请参阅 创建到您自己的 S3 兼容对象存储的连接。
先决条件
您必须知道数据科学项目的 OpenShift 资源名称,以便在正确的项目中运行提供的脚本。获取项目资源名称:
在 OpenShift AI 仪表板中,选择 Data Science Projects,然后单击项目名称旁边的 ? 图标。此时会出现一个带有项目信息的文本框,包括其资源名称:
以下流程描述了如何从 OpenShift 控制台运行脚本。如果您在 OpenShift 中知识,并可以从命令行访问集群,而不是按照此流程中的步骤,您可以运行以下命令运行脚本:
oc apply -n <your-project-name/> -f https://github.com/rh-aiservices-bu/fraud-detection/raw/main/setup/setup-s3.yaml
流程
在 OpenShift AI 仪表板中,点应用程序启动程序图标,然后选择 OpenShift Console 选项。
在 OpenShift 控制台中,单击顶部导航栏中的 +。
从项目列表中选择您的项目。
验证您是否选择了了正确的项目。
复制以下代码并将其粘贴到 Import YAML 编辑器。
注意此代码获取并应用
setup-s3-no-sa.yaml文件。--- apiVersion: v1 kind: ServiceAccount metadata: name: demo-setup --- apiVersion: rbac.authorization.k8s.io/v1 kind: RoleBinding metadata: name: demo-setup-edit roleRef: apiGroup: rbac.authorization.k8s.io kind: ClusterRole name: edit subjects: - kind: ServiceAccount name: demo-setup --- apiVersion: batch/v1 kind: Job metadata: name: create-s3-storage spec: selector: {} template: spec: containers: - args: - -ec - |- echo -n 'Setting up Minio instance and connections' oc apply -f https://github.com/rh-aiservices-bu/fraud-detection/raw/main/setup/setup-s3-no-sa.yaml command: - /bin/bash image: image-registry.openshift-image-registry.svc:5000/openshift/tools:latest imagePullPolicy: IfNotPresent name: create-s3-storage restartPolicy: Never serviceAccount: demo-setup serviceAccountName: demo-setup- 点 Create。
验证
在 OpenShift 控制台中,您应该看到 "Resources successfully created" 信息以及列出的以下资源:
-
demo-setup -
demo-setup-edit -
create-s3-storage
-
在 OpenShift AI 仪表板中:
- 选择 Data Science Projects,然后单击项目的名称,Fr aud 检测。
点 Connections。您应该会看到列出的两个连接:
My Storage和Pipeline Artifacts。
后续步骤
如果要完成本教程的管道部分,请参阅启用数据科学管道。
否则,请跳至 创建工作台。