1.5. 已知问题


运行 MMLU 评估

在 RHEL AI 版本 1.5 中,在运行 MMLU 时,您需要使用 the -skip-server 标志。

某些 NVIDIA A100 系统上的自动检测不正确

RHEL AI 有时使用 A100 加速器自动检测机器上不正确的系统配置文件。

您可以通过重新初始化并传递正确的系统配置文件来选择正确的配置集。

$ ilab config init --profile <path-to-system-profile>

fabric Manager 并不总是以 NVIDIA 加速器开头

在 NVIDIA 系统上安装 Red Hat Enterprise Linux AI 后,您可能会在提供模型或培训模型时看到以下错误。

INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:56: Using model '/var/home/cloud-user/.local/share/instructlab/phased/phase2/checkpoints/hf_format/samples_29117' with -1 gpu-lay
ers and 4096 max context size.
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:88: '--gpus' flag used alongside '--tensor-parallel-size' in the vllm_args section of the config file. Using value of the --gpus

File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 105, in build_async_engine_client
    async with build_async_engine_client_from_engine_args(
  File "/usr/lib64/python3.11/contextlib.py", line 210, in __aenter__
    return await anext(self.gen)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 192, in build_async_engine_client_from_engine_args
    raise RuntimeError(
RuntimeError: Engine process failed to start

要解决这个问题,您需要运行以下命令:

$ sudo systemctl stop nvidia-persistenced.service
$ sudo systemctl start nvidia-fabricmanager.service
$ sudo systemctl start nvidia-persistenced.service

UI AMD 技术预览安装

Red Hat Enterprise Linux AI 版本 1.5 目前不支持使用技术预览 AMD ISO 基于图形安装。确保为非互动安装配置了 kickstart 文件中的 text 参数。您还可以在互动安装过程中在 shell 中传递 inst.text,以避免安装时间崩溃。

SDG 可以在 4xL40s 上失败

要使 SDG 在 4xL40s 上运行,您需要使用 --num-cpus 标志运行 SDG,并设置为 4 的值。

$ ilab data generate --num-cpus 4

granite-8b-starter-v1 模型上的 MMLU 和 MMLU_BRANCH

当评估从 granite-8b-starter-v1 LLM 构建的模型时,在运行 MMLU 和 MMLU_BRANCH 基准时,vLLM 可能无法启动。

如果 vLLM 没有启动,请在 config.yaml 文件的 serve 部分中添加以下参数:

serve:
  vllm:
    vllm_args: [--dtype bfloat16]

kdump over nfs

Red Hat Enterprise Linux AI 版本 1.5 不支持在没有配置的情况下通过 nfs 进行 kdump。要使用这个功能,请运行以下命令:

mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部