8.4. 使用 Azure CycleCloud 和 Slurm 部署 HPC 集群
您可以在 Azure Cloud 上配置 Red Hat Enterprise Linux (RHEL)高性能计算(HPC)集群。HPC 集群通过在多台机器(也称为节点)分发任务来解决需要大量处理和计算的复杂问题。
Azure CycleCloud (一个云原生编配器)管理 Azure Cloud 的 HPC 集群。使用 Azure CycleCloud,您可以管理 HPC 集群,以自动部署和扩展适当的工作负载。Azure CycleCloud 管理并行计算作业、资源,并设置 Slurm 工作负载管理器。但是,Slurm 管理在集群中调度和运行任务的资源分配。以下步骤使用 Slurm 和 Azure CycleCloud 8.x 部署和管理 RHEL HPC 集群。
要在 Azure 环境中配置 RHEL HPC 集群,您可以使用 Microsoft Azure 服务,如 Azure CycleCloud。按照您自己的风险使用这些工具。
先决条件
- 您有一个活跃的 Azure 云订阅。
- 您有一个 RHEL HPC 镜像。详情请参阅 使用 HPC RHEL 系统角色配置 RHEL HPC 镜像。
- 您有一个通用的虚拟机。详情请参阅 为创建镜像正式发布 Azure 虚拟机。
- 您已准备好的 Azure 镜像版本。详情请参阅 从通用虚拟机准备 Azure 镜像版本。
流程
在 Azure 上安装和部署 CycleCloud:
- 对于 Azure Marketplace 安装,请参阅从 Azure Marketplace 安装 Azure CycleCloud。
- 有关手动安装,请参阅 手动安装 Azure CycleCloud。
显示自定义 RHEL HPC 镜像的 ID:
$ az sig image-version show --resource-group="<example_resource_group>" \ --gallery-name="<example_gallery>" \ --gallery-image-definition="<example_image>" \ --gallery-image-version="<example_version>" \ --query="id" \ --output="tsv"按照带有 CycleCloud 的 Run Slurm 中的步骤,使用 Azure CycleCloud 配置 Slurm 工作负载管理器:
警告由于 IPv4 地址有已知的限制,选择
Public Head Node选项会导致使用 Slurm head 节点进行置备失败。作为临时解决方案,请确保选中Public Head Node选项,并确定访问环境中 Slurm head 节点的最合适的方法。详情请参阅 GitHub 上的相关 Slurm 问题。注意将上一步中获取的自定义 RHEL 镜像 ID 用于所有集群节点。详情请参阅 如何指定自定义操作系统镜像。
- 在 CycleCloud 主页上,选择现有的 Slurm 集群。
- 要启动 Slurm 集群,请点击 Start。
- 通过选择 集群 视图并单击 Connect 来登录到 Slurm head 节点。使用标准的 Slurm 命令行工具来计划 HPC 作业。详情请查看 如何提交作业?(Slurm)部分。