1.5. 已知问题
运行 MMLU 评估
在 RHEL AI 版本 1.5 中,在运行 MMLU 时,您需要使用 the -skip-server
标志。
某些 NVIDIA A100 系统上的自动检测不正确
RHEL AI 有时使用 A100 加速器自动检测机器上不正确的系统配置文件。
您可以通过重新初始化并传递正确的系统配置文件来选择正确的配置集。
ilab config init --profile <path-to-system-profile>
$ ilab config init --profile <path-to-system-profile>
fabric Manager 并不总是以 NVIDIA 加速器开头
在 NVIDIA 系统上安装 Red Hat Enterprise Linux AI 后,您可能会在提供模型或培训模型时看到以下错误。
要解决这个问题,您需要运行以下命令:
sudo systemctl stop nvidia-persistenced.service sudo systemctl start nvidia-fabricmanager.service sudo systemctl start nvidia-persistenced.service
$ sudo systemctl stop nvidia-persistenced.service
$ sudo systemctl start nvidia-fabricmanager.service
$ sudo systemctl start nvidia-persistenced.service
UI AMD 技术预览安装
Red Hat Enterprise Linux AI 版本 1.5 目前不支持使用技术预览 AMD ISO 基于图形安装。确保为非互动安装配置了 kickstart
文件中的 text
参数。您还可以在互动安装过程中在 shell 中传递 inst.text
,以避免安装时间崩溃。
SDG 可以在 4xL40s 上失败
要使 SDG 在 4xL40s 上运行,您需要使用 --num-cpus 标志运行
SDG,并设置为 4
的值。
ilab data generate --num-cpus 4
$ ilab data generate --num-cpus 4
granite-8b-starter-v1
模型上的 MMLU 和 MMLU_BRANCH
当评估从 granite-8b-starter-v1
LLM 构建的模型时,在运行 MMLU 和 MMLU_BRANCH 基准时,vLLM 可能无法启动。
如果 vLLM 没有启动,请在 config.yaml
文件的 serve
部分中添加以下参数:
serve: vllm: vllm_args: [--dtype bfloat16]
serve:
vllm:
vllm_args: [--dtype bfloat16]
kdump over nfs
Red Hat Enterprise Linux AI 版本 1.5 不支持在没有配置的情况下通过 nfs 进行 kdump。要使用这个功能,请运行以下命令:
mkdir -p /var/lib/kdump/dracut.conf.d echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf systemctl restart kdump
mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump