10.8. IBM Power 问题故障排除
如果您无法访问 AI Inference Server 容器中的模型数据,请完成以下步骤:
-
验证映射到容器的
/models文件夹是否正确 - 查看主机 SELinux 设置
确保您已在
$HOME/models文件夹上应用适当的权限,例如:chmod -R 755 $HOME/models
$ chmod -R 755 $HOME/modelsCopy to Clipboard Copied! Toggle word wrap Toggle overflow 确保为 Podman 卷挂载使用
:Z选项:podman run -d --device=/dev/vfio \ -v $HOME/models:/models:Z \ # ...$ podman run -d --device=/dev/vfio \ -v $HOME/models:/models:Z \ # ...Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
确保为解码模型设置了
VLLM_SPYRE_USE_CB=1。
10.8.1. 用于 Power AI acclerator 卡问题的 IBM Spyre 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
-
确保主机上可以看到 IBM Spyre AI 加速器卡。使用
lspci验证卡是否可用。 -
确保您的用户位于
sentient组中。 - 使用服务报告工具诊断和纠正卡访问问题。请参阅 IBM Power 系统服务及生产力工具。
10.8.2. IBM Spyre 用于 Power 性能问题 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
- 确保所有 Spyre 卡在 IBM Power 服务器 I/O drawer 的前四个插槽中安全隔离。前四个插槽具有最高的速度 PCIe 接口。
- 确保分配给 LPAR 的卡都在同一个 drawer 中。不要将卡分开,因为这会增加 I/O 延迟。如需更多信息,请参阅 IBM Power11 文档。
如果您在 IBM Spyre AI Accelerator 卡时遇到问题,您可以使用
aiu-smi工具以及您要配置集的工作负载。执行以下步骤:- 启动模型。
从第二个终端中,查询模型。例如:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在第三个终端中,运行
aiu-smi工具:podman exec -it <CONTAINER_ID> -c aiu-smi
$ podman exec -it <CONTAINER_ID> -c aiu-smiCopy to Clipboard Copied! Toggle word wrap Toggle overflow 或者,在正在运行的容器中执行 并运行
aiu-smi。例如:podman exec -it <CONTAINER_ID> bash
$ podman exec -it <CONTAINER_ID> bashCopy to Clipboard Copied! Toggle word wrap Toggle overflow 在容器内运行
aiu-smi工具:aiu-smi
[senuser@689230aca2ba ~]$ aiu-smiCopy to Clipboard Copied! Toggle word wrap Toggle overflow aiu-smi 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow