2.3. 为 LAB-tuning 创建项目
要运行 LAB-tuning,请在 OpenShift AI 中创建数据科学项目并设置其管道服务器。数据科学项目可保持资源组织,而管道服务器则运行并管理 LAB-tuning 工作流的每个步骤。
先决条件
- 您已登录到 OpenShift AI。
- 您有适当的角色和权限来创建项目。
- 您有一个现有的 S3 兼容对象存储桶,并且您已在存储帐户上配置了 S3 存储桶的写入访问权限。
如果您要为生产环境的管道工作负载配置管道服务器,则有一个现有的外部 MySQL 或 MariaDB 数据库。
- 对于外部 MySQL 数据库,您的数据库必须至少使用 MySQL 版本 5.x。但是,红帽建议您使用 MySQL 版本 8.x。
- 对于外部 MariaDB 数据库,您的数据库必须使用 MariaDB 版本 10.3 或更高版本。但是,红帽建议您至少使用 MariaDB 版本 10.5。
- 您的集群管理员已在集群中配置了 LAB-tuning,如 Enabling LAB-tuning 所述。
流程
在 OpenShift AI 仪表板中点 Data Science projects。
Data Science 项目页将打开。
创建数据科学项目:
点 Create project。
Create project 表单将打开。
- 对于 Name,输入项目的唯一显示名称。
可选:如果要更改项目的默认资源名称,点 Edit resource name。
资源名称是 OpenShift 中如何标记您的资源。有效字符包括小写字母、数字和连字符(-)。资源名称不能超过 30 个字符,它必须以字母或数字开头,并以字母或数字结尾。
注: 您不能在创建项目后更改资源名称。您只能编辑显示名称和描述。
- 可选:在 Description 字段中,提供项目描述。
点 Create。
此时会打开项目详情页面。
创建将对象存储桶链接到数据科学项目的连接,以保存管道工件:
点 Connections 选项卡,然后点 Create connection。
Create connection 表单将打开。
- 对于 Connection type,请选择 S3 兼容对象存储 - v1。
完成 连接详细信息。如需更多信息 ,请参阅添加与数据科学项目的连接。
点 Create。
新连接显示在项目的 Connections 选项卡中。
将管道服务器配置为运行并跟踪 InstructLab 管道:
点 Pipelines 选项卡,然后点 Configure pipeline server。
此时会打开 Configure pipeline server 表单。
在 Object storage connection 部分中,点 Autofill from connection,然后选择您刚才创建的连接。
表单使用连接的凭据填充。
- 点 Advanced settings 显示 Database、安装预配置的管道、管道定义存储 和 Pipeline 缓存 部分。
在 Database 部分中,选择以下选项之一来指定在何处存储管道元数据并运行信息:
- 集群中的默认数据库 :仅用于开发和测试目的。
- 外部 MySQL 数据库 :用于生产环境管道工作负载。如需更多信息 ,请参阅配置管道服务器。
在 Install preconfigured pipelines 部分中,选中 InstructLab pipeline 复选框。
这会在项目上安装 InstructLab 管道,允许您使用 LAB-tuning 自定义模型。
重要OpenShift AI 自动更新 InstructLab 管道。要禁用自动更新,请进入数据科学项目的 Pipelines 选项卡,点 Import pipeline 旁边的下箭头,选择 Manage preconfigured pipelines,清除 InstructLab pipeline 复选框,然后点 Apply。
- 可选:默认情况下,管道定义存储为 Kubernetes 资源,启用版本控制、GitOps 工作流以及与 OpenShift GitOps 或类似工具的集成。要在内部数据库中存储管道定义,请清除 Pipeline 定义 存储部分的 Kubernetes 复选框中的 Store pipeline 定义。
- 可选: 默认情况下,缓存可在管道和任务级别进行配置。要禁用管道服务器中所有管道和任务的缓存并覆盖任何管道级别和任务级缓存设置,请在 Pipeline 缓存部分为每个管道和任务配置 Allow 缓存 复选框。
- 单击 Configure pipeline server。
验证
- InstructLab 管道会显示在数据科学项目的 Pipelines 标签页中。