8.4. 使用 Azure CycleCloud 和 Slurm 部署 HPC 集群


您可以在 Azure Cloud 上配置 Red Hat Enterprise Linux (RHEL)高性能计算(HPC)集群。HPC 集群通过在多台机器(也称为节点)分发任务来解决需要大量处理和计算的复杂问题。

Azure CycleCloud (一个云原生编配器)管理 Azure Cloud 的 HPC 集群。使用 Azure CycleCloud,您可以管理 HPC 集群,以自动部署和扩展适当的工作负载。Azure CycleCloud 管理并行计算作业、资源,并设置 Slurm 工作负载管理器。但是,Slurm 管理在集群中调度和运行任务的资源分配。以下步骤使用 Slurm 和 Azure CycleCloud 8.x 部署和管理 RHEL HPC 集群。

警告

要在 Azure 环境中配置 RHEL HPC 集群,您可以使用 Microsoft Azure 服务,如 Azure CycleCloud。按照您自己的风险使用这些工具。

先决条件

流程

  1. 在 Azure 上安装和部署 CycleCloud:

  2. 显示自定义 RHEL HPC 镜像的 ID:

    $ az sig image-version show --resource-group="<example_resource_group>" \
    --gallery-name="<example_gallery>" \
    --gallery-image-definition="<example_image>" \
    --gallery-image-version="<example_version>" \
    --query="id" \
    --output="tsv"
  3. 按照带有 CycleCloud 的 Run Slurm 中的步骤,使用 Azure CycleCloud 配置 Slurm 工作负载管理器:

    警告

    由于 IPv4 地址有已知的限制,选择 Public Head Node 选项会导致使用 Slurm head 节点进行置备失败。作为临时解决方案,请确保选中 Public Head Node 选项,并确定访问环境中 Slurm head 节点的最合适的方法。详情请参阅 GitHub 上的相关 Slurm 问题

    注意

    将上一步中获取的自定义 RHEL 镜像 ID 用于所有集群节点。详情请参阅 如何指定自定义操作系统镜像

  4. 在 CycleCloud 主页上,选择现有的 Slurm 集群。
  5. 要启动 Slurm 集群,请点击 Start
  6. 通过选择 集群 视图并单击 Connect 来登录到 Slurm head 节点。使用标准的 Slurm 命令行工具来计划 HPC 作业。详情请查看 如何提交作业?(Slurm)部分
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部