1.5. 已知问题
运行 MMLU 评估
在 RHEL AI 版本 1.5 中,在运行 MMLU 时,您需要使用 the -skip-server 标志。
某些 NVIDIA A100 系统上的自动检测不正确
RHEL AI 有时使用 A100 加速器自动检测机器上不正确的系统配置文件。
您可以通过重新初始化并传递正确的系统配置文件来选择正确的配置集。
$ ilab config init --profile <path-to-system-profile>
fabric Manager 并不总是以 NVIDIA 加速器开头
在 NVIDIA 系统上安装 Red Hat Enterprise Linux AI 后,您可能会在提供模型或培训模型时看到以下错误。
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:56: Using model '/var/home/cloud-user/.local/share/instructlab/phased/phase2/checkpoints/hf_format/samples_29117' with -1 gpu-lay
ers and 4096 max context size.
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:88: '--gpus' flag used alongside '--tensor-parallel-size' in the vllm_args section of the config file. Using value of the --gpus
File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 105, in build_async_engine_client
async with build_async_engine_client_from_engine_args(
File "/usr/lib64/python3.11/contextlib.py", line 210, in __aenter__
return await anext(self.gen)
^^^^^^^^^^^^^^^^^^^^^
File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 192, in build_async_engine_client_from_engine_args
raise RuntimeError(
RuntimeError: Engine process failed to start
要解决这个问题,您需要运行以下命令:
$ sudo systemctl stop nvidia-persistenced.service
$ sudo systemctl start nvidia-fabricmanager.service
$ sudo systemctl start nvidia-persistenced.service
UI AMD 技术预览安装
Red Hat Enterprise Linux AI 版本 1.5 目前不支持使用技术预览 AMD ISO 基于图形安装。确保为非互动安装配置了 kickstart 文件中的 text 参数。您还可以在互动安装过程中在 shell 中传递 inst.text,以避免安装时间崩溃。
SDG 可以在 4xL40s 上失败
要使 SDG 在 4xL40s 上运行,您需要使用 --num-cpus 标志运行 SDG,并设置为 4 的值。
$ ilab data generate --num-cpus 4
granite-8b-starter-v1 模型上的 MMLU 和 MMLU_BRANCH
当评估从 granite-8b-starter-v1 LLM 构建的模型时,在运行 MMLU 和 MMLU_BRANCH 基准时,vLLM 可能无法启动。
如果 vLLM 没有启动,请在 config.yaml 文件的 serve 部分中添加以下参数:
serve:
vllm:
vllm_args: [--dtype bfloat16]
kdump over nfs
Red Hat Enterprise Linux AI 版本 1.5 不支持在没有配置的情况下通过 nfs 进行 kdump。要使用这个功能,请运行以下命令:
mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump