第 8 章 在带有 IBM Spyre AI Accelerator 的 IBM Z 上使用 Podman 服务


使用 Podman 和带有 IBM Spyre AI 加速器的 IBM Z 上运行的 Red Hat AI Inference Server 提供大型语言模型。

先决条件

  • 对于安装的 Z AI Accelerators,您可以访问运行带有 IBM Spyre 的 RHEL 9.6 的 IBM Z (s390x)服务器。
  • 您以具有 sudo 访问权限的用户身份登录。
  • 已安装 Podman。
  • 您可以访问 registry.redhat.io 并已登录。
  • 您有一个 Hugging Face 帐户,并生成了一个 Hugging Face 访问令牌。
注意

IBM Spyre AI 加速器卡只支持 FP16 格式模型权重。对于兼容模型,Red Hat AI Inference Server inference 引擎在启动时自动将权重转换为 FP16。不需要额外的配置。

流程

  1. 在服务器主机上打开一个终端,并登录到 registry.redhat.io

    $ podman login registry.redhat.io
    Copy to Clipboard Toggle word wrap
  2. 运行以下命令拉取 Red Hat AI Inference Server 镜像:

    $ podman pull registry.redhat.io/rhaiis/vllm-spyre:3.2.5
    Copy to Clipboard Toggle word wrap
  3. 如果您的系统启用了 SELinux,请将 SELinux 配置为允许设备访问:

    $ sudo setsebool -P container_use_devices 1
    Copy to Clipboard Toggle word wrap
  4. 使用 lspci -v 验证容器是否可以访问主机系统 IBM Spyre AI Accelerators:

    $ podman run -it --rm --pull=newer \
        --security-opt=label=disable \
        --device=/dev/vfio \
        --group-add keep-groups \
        --entrypoint="lspci" \
        registry.redhat.io/rhaiis/vllm-spyre:3.2.5
    Copy to Clipboard Toggle word wrap

    输出示例

    0381:50:00.0 Processing accelerators: IBM Spyre Accelerator (rev 02)
    0382:60:00.0 Processing accelerators: IBM Spyre Accelerator (rev 02)
    0383:70:00.0 Processing accelerators: IBM Spyre Accelerator (rev 02)
    0384:80:00.0 Processing accelerators: IBM Spyre Accelerator (rev 02)
    Copy to Clipboard Toggle word wrap

  5. 创建卷以挂载到容器并调整容器权限,以便容器可以使用它。

    $ mkdir -p ~/models && chmod g+rwX ~/models
    Copy to Clipboard Toggle word wrap
  6. granite-3.3-8b-instruct 模型下载到 models/ 文件夹中。如需更多信息,请参阅 下载模型
  7. 为可用的 Spyre 设备收集 IOMMU 组 ID:

    $ lspci
    Copy to Clipboard Toggle word wrap

    输出示例

    0000:00:00.0 Processing accelerators: IBM Spyre Accelerator Virtual Function (rev 02)
    0001:00:00.0 Processing accelerators: IBM Spyre Accelerator Virtual Function (rev 02)
    0002:00:00.0 Processing accelerators: IBM Spyre Accelerator Virtual Function (rev ff)
    0003:00:00.0 Processing accelerators: IBM Spyre Accelerator Virtual Function (rev 02)
    Copy to Clipboard Toggle word wrap

    每行都以 PCI 设备地址开头,例如 0000:00:00.0

  8. 使用 PCI 地址确定所需的 Spyre 卡的 IOMMU 组 ID,例如:

    $ readlink /sys/bus/pci/devices/<PCI_ADDRESS>/iommu_group
    Copy to Clipboard Toggle word wrap

    输出示例

    ../../../kernel/iommu_groups/0
    Copy to Clipboard Toggle word wrap

    IOMMU 组 ID (0)是 readlink 输出中末尾的数字。

    对每个必需的 Spyre 卡重复此操作。

  9. 使用 readlink 输出为所需的 Spyre 卡设置 IOMMU_GROUP_ID 变量。例如:

    IOMMU_GROUP_ID0=0
    IOMMU_GROUP_ID1=1
    IOMMU_GROUP_ID2=2
    IOMMU_GROUP_ID3=3
    Copy to Clipboard Toggle word wrap
  10. 启动 AI Inference Server 容器,传递所需的 Spyre 设备的 IOMMU 组 ID 变量。例如,部署为实体提取在 4 个 Spyre 设备中提取的 granite-3.3-8b-instruct 模型:

    podman run \
      --device /dev/vfio/vfio \
      --device /dev/vfio/${IOMMU_GROUP_ID0}:/dev/vfio/${IOMMU_GROUP_ID0}  \
      --device /dev/vfio/${IOMMU_GROUP_ID1}:/dev/vfio/${IOMMU_GROUP_ID1}  \
      --device /dev/vfio/${IOMMU_GROUP_ID2}:/dev/vfio/${IOMMU_GROUP_ID2}  \
      --device /dev/vfio/${IOMMU_GROUP_ID3}:/dev/vfio/${IOMMU_GROUP_ID3}  \
      -v $HOME/models:/models:Z \
      --pids-limit 0 \
      --userns=keep-id \
      --group-add=keep-groups \
      --memory 200G \
      --shm-size 64G \
      -p 8000:8000 \
      registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \
        --model /models/granite-3.3-8b-instruct \
        -tp 4 \
        --max-model-len 32768 \
        --max-num-seqs 32
    Copy to Clipboard Toggle word wrap

验证

  • 在终端中的单独标签页中,使用 API 向模型发出请求。

    curl -X POST -H "Content-Type: application/json" -d '{
        "model": "/models/granite-3.3-8b-instruct",
        "prompt": "What is the capital of France?",
        "max_tokens": 50
    }' http://<your_server_ip>:8000/v1/completions | jq
    Copy to Clipboard Toggle word wrap

    输出示例

    {
      "id": "cmpl-7c81cd00ccd04237ac8b5119e86b32a5",
      "object": "text_completion",
      "created": 1764665204,
      "model": "/models/granite-3.3-8b-instruct",
      "choices": [
        {
          "index": 0,
          "text": "\nThe answer is Paris. Paris is the capital and most populous city of France, located in the northern part of the country. It is renowned for its history, culture, fashion, and art, attracting",
          "logprobs": null,
          "finish_reason": "length",
          "stop_reason": null,
          "token_ids": null,
          "prompt_logprobs": null,
          "prompt_token_ids": null
        }
      ],
      "service_tier": null,
      "system_fingerprint": null,
      "usage": {
        "prompt_tokens": 7,
        "total_tokens": 57,
        "completion_tokens": 50,
        "prompt_tokens_details": null
      },
      "kv_transfer_params": null
    }
    Copy to Clipboard Toggle word wrap

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat