第 2 章 安装并部署 OpenShift AI
Red Hat OpenShift AI 是人工智能(AI)应用程序的数据科学家和开发人员的平台。它提供了一个完全支持的环境,可让您在公共云中快速开发、培训、测试和部署机器学习模型。
OpenShift AI 作为受管云服务附加组件提供给 Red Hat OpenShift,或作为自我管理的软件提供,您可以在 OpenShift 上安装内部或公有云。
有关在连接的或断开连接的环境中将 OpenShift AI 作为自我管理的软件安装的详情,请参考 Red Hat OpenShift AI Self-Managed 产品文档。
Data Science pipelines 2.0 包含 Argo 工作流的安装。OpenShift AI 不支持直接客户使用此 Argo 工作流安装。要安装带有数据科学管道 2.0 的 OpenShift AI,请确保集群中没有单独的安装 Argo 工作流。
Red Hat OpenShift AI 有两个部署选项作为受管云服务附加组件:
在 Amazon Web Services 或 Google Cloud Platform 上使用客户云订阅的 OpenShift Dedicated
OpenShift Dedicated 是一个完整的 OpenShift Container Platform 集群,作为云服务提供,配置为高可用性,专用于单个客户。OpenShift Dedicated 主要由红帽管理,托管在 Amazon Web Services (AWS )或 Google Cloud Platform (GCP)上。客户云订阅(CCS)模型允许红帽将集群部署和管理到客户的 AWS 或 GCP 帐户中。请联系您的红帽客户经理,通过 CCS 获取 OpenShift Dedicated。
Red Hat OpenShift Service on AWS (ROSA Classic)
ROSA 是一个完全被管理的应用平台,它使您可以专注于通过构建和部署应用程序来为客户创造价值。您直接从 AWS 帐户订阅该服务。
将 OpenShift AI 安装为受管云服务涉及以下高级别任务:
- 确认 OpenShift 集群满足所有要求。
- 为 OpenShift 集群配置身份提供程序。
- 为 OpenShift 集群添加管理用户。
订阅 Red Hat OpenShift AI Add-on。
对于带有 CCS for AWS 或 GCP 的 OpenShift Dedicated,通过红帽获取订阅。
对于 ROSA Classic,通过 AWS Marketplace 获取订阅。
- 安装 Red Hat OpenShift AI Add-on。
- 访问 OpenShift AI 仪表板。
- 另外,还可在 OpenShift AI 中启用图形处理单元(GPU),以确保数据科学家可以在其模型中使用计算密集型工作负载。
2.1. OpenShift AI 的要求
在 Red Hat OpenShift Dedicated 或 Red Hat OpenShift Service on Amazon Web Services (ROSA Classic)集群上安装 OpenShift AI 前,您必须满足以下要求:
Red Hat OpenShift Dedicated 或 ROSA 订阅的订阅
您可以使用 AWS 上的客户云订阅或 GCP 模型上的 客户云订阅在 Amazon Web Services (AWS)或 Google Cloud Platform (GCP)帐户上部署 Red Hat OpenShift Dedicated。https://docs.redhat.com/en/documentation/openshift_dedicated/4/html/planning_your_environment/gcp-ccs请注意,如果想要安装 OpenShift AI,但红帽提供了一个在 Red Hat 云帐户上安装 OpenShift Dedicated 的选项,但您必须在您自己的云帐户中安装 OpenShift Dedicated。
请联系您的红帽客户经理,购买新的 Red Hat OpenShift Dedicated 订阅。如果您还没有帐户管理器,请在 https://cloud.redhat.com/products/dedicated/contact/ 上填写表单以请求一个。
您可以直接从 AWS 帐户(ROSA Classic)直接订阅 Red Hat OpenShift Service on AWS (ROSA Classic),或联系您的红帽帐户经理。
红帽客户帐户
进入 OpenShift Cluster Manager(http://console.redhat.com/openshift),并登录或注册新帐户。
集群管理员对 OpenShift 集群的访问权限
您必须有一个具有集群管理员访问权限的 OpenShift 集群。使用现有集群,或按照相关文档中的步骤创建集群:
- 满足以下要求的 OpenShift Dedicated 或 ROSA 集群配置:
安装附加组件时,至少有 2 个 worker 节点至少有 8 个 CPU 和 32 GiB RAM 用于 OpenShift AI。如果没有满足这个要求,安装过程无法启动并显示错误。
在创建新集群时,为计算机节点实例类型选择 m6a.2xlarge 来满足要求。
对于现有的 ROSA Classic 集群,您可以使用以下命令获取计算节点实例类型:
rosa list machinepools --cluster=cluster-name
您无法更改集群的计算节点实例类型,但您可以添加额外机器池或修改默认池来满足最低要求。但是,集群中单个机器池必须满足最低资源要求。
如需更多信息,请参阅相关文档:
- 在 OpenShift Dedicated 中创建机器池
- OpenShift AI 服务定义
- 在 ROSA Classic 中创建机器池
- 准备您的环境 (ROSA Classic)
对于 ROSA 集群,选择访问管理策略
要在 ROSA Classic 集群上安装 OpenShift AI,决定是否要在使用 AWS 安全令牌服务(STS)的 ROSA 集群上安装,或使用 AWS Identity and Access Management (IAM)凭证。有关部署使用或不使用 AWS STS 的 ROSA 集群的建议,请参阅安装 ROSA Classic 集群。
安装 KServe 依赖项
- 要支持 KServe 组件,该组件由单模式服务平台用来服务大型模型,还必须为 Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator 并执行额外的配置。如需更多信息 ,请参阅关于单模式服务平台。
-
如果要为单模式服务平台添加授权供应商,您必须安装
Red Hat - Authorino
Operator。如需更多信息,请参阅为 单模式服务平台添加授权供应商。
安装模型 registry 依赖项(技术预览功能)
- 要使用模型 registry 组件,还必须为 Red Hat Authorino、Red Hat OpenShift Serverless 和 Red Hat OpenShift Service Mesh 安装 Operator。有关配置模型 registry 组件的更多信息,请参阅配置模型 registry 组件。
访问对象存储
- OpenShift AI 组件需要或可以使用 S3 兼容对象存储,如 AWS S3、MinIO、Ceph 或 IBM Cloud Storage。对象存储是一种数据存储机制,允许用户作为对象或文件访问其数据。S3 API 是基于 HTTP 访问对象存储服务的可识别标准。
以下组件需要对象存储:
- 单一或多模式服务平台,以部署存储模型。请参阅 在单模式服务平台上部署 模型或使用多型号服务平台部署模型。
- 数据科学管道、存储工件、日志和中介结果。请参阅配置管道服务器和 关于管道日志。
以下组件可以使用对象存储:
- 工作台,用于访问大型数据集。请参阅在数据科学项目中添加连接。
- 分布式工作负载,用于从和推送结果中提取输入数据。请参阅从数据科学管道运行分布式数据科学工作负载。
- 管道中执行的代码。例如,要将生成的模型存储在对象存储中。请参阅 Jupyterlab 中的管道概述。