A.3. RHEL AI 硬件认证测试
以下测试是为 RHEL AI 硬件认证执行的:
只有在底层系统是 RHEL AI 时,才会规划测试。redhat-certification-hardware-ai 测试套件通过检查 /etc/os-release 文件中的以下参数来识别您的 HUT 是 RHEL AI:
- RHEL_AI_VERSION_ID
- 变体
RHEL AI 认证测试套件有以下测试:
- ilab_inferencing test
- ilab_validation 测试
- self_check test
- 支持测试
- sos 报告测试
A.3.1. ilab_inferencing test 复制链接链接已复制到粘贴板!
测试涵盖的内容
ilab_inferencing 测试服务并与预遍历模型交互,并检查它是否在安装过程中使用 AI 加速器。推断是模型可以处理并从输入数据生成输出时。
有关 RHEL AI 硬件要求的详细列表,请查看 inference 服务 Granite 模型的硬件要求。
测试的作用
ilab inferencing 测试从 ilab 配置文件的 serve 部分捕获模型名称并下载模型。然后测试会提供该模型并与之交互。
测试会在以下阶段监控并捕获 AI 加速器状态:
- ilab serve 启动前
- 当 ilab serve 启动后
- 在与载入模型交互过程中
- ilab serve 停止后
准备测试
在运行测试前,请确保使用 skopeo 工具登录到 registry.redhat.io。这允许 ilab_inferencing 测试在执行期间从 registry 下载模型。
执行测试
测试是交互式的。ilab 推断 测试从 ilab 初始化开始。出现提示时,根据系统的加速器配置选择一个培训配置文件。
目前,init ilab 子测试返回状态 REVIEW。
运行时间
这是一个自动测试,可能需要几分钟来完成。
A.3.2. ilab_validation 测试 复制链接链接已复制到粘贴板!
测试涵盖的内容
此测试捕获了 ilab 配置文件的 generate, training 和 evaluate 部分中提到的模型名称,并下载它们。
某些测试的模型的大小可能会超过 80GB。
测试的作用
ilab_validation 测试涵盖了 ilab 培训的端到端测试。它由以下步骤组成:
- taxonomy
- 合成数据生成(SDG)
- 多阶段培训
- 单个阶段培训
-
使用
mmlu的评估 -
使用
mt_bench进行评估
对于上述每个步骤,测试将在测试运行一段时间后捕获 AI 加速器的状态。
taxonomy
LAB 方法由 Information classification 方法(一个信息分类方法)驱动。在运行 RHEL AI 硬件认证测试时,测试套件将执行以下功能:
- 克隆 RHEL AI git 存储库。
-
复制位置
knowledge/science/astronomy/constellations/phoenix/中的数据 -
运行命令
ilab taxonomy diff
合成数据生成(SDG)
将大型语言模型(LLM)与人工生成的样本一起使用的过程,用于生成可用于培训其他 LLM 的智能数据。
多阶段培训
LAB 方法实施一个微调策略,其中对名为 epoch 的多个数据集的多个数据集进行培训。每个阶段都保存检查点,最佳的检查点用于进一步培训。完全调优的模型是最终阶段最佳执行检查点。
对于认证测试,培训仅针对 2 个时期运行。
-
启动
tmux会话。 - 在运行测试达到 5 分钟后,捕获 AI 加速器的状态。
-
运行所需命令后,测试套件会在位置
/root/.local/share/instructlab/checkpoints/hf_format/中打印创建的检查点列表 - 以上检查点之一随机用于评估阶段。
准备测试
在运行测试前,请确保使用 skopeo 工具登录到 registry.redhat.io。这允许 ilab_validation 测试在执行期间从注册表下载模型。
执行测试
此测试是交互式的。根据 HUT 中提供的 AI 加速器类,此测试需要几小时时间完成。每个 subtests 都作为单独的 tmux 会话启动。
在运行 SDG 测试时,测试套件执行以下操作:
检查预生成的数据集是否可用。
如果数据集存在,
测试提示用户确认重复使用 datasets 或删除它们。
- 是 - 跳过后续步骤。
- 无 删除生成的数据集,并继续测试。
- 如果数据集不存在,测试将继续生成它们。
运行所需命令后,测试套件会检查数据集是否生成了包含以下名称,因为它们将在进一步测试中被使用:
-
knowledge_train_msgs -
skills_train_msgs -
messages
-
在 ilab 测试在后台运行时,您可以与 ilab 进程交互。此步骤是可选的。
如果要与 ilab 进程交互,请在运行时选择以下选项之一:
-
ilab 进程的状态 - 检查
tmux会话中运行的 ilab 进程的当前状态。 -
Attach
tmuxsession - 要附加运行 ilab 进程的 tmux 会话(只读模式)。要退出,请按键ctrl+b,然后按d键。 - GPU 使用 - 打印系统中当前加速器的使用。
- kill ilab process - 在 tmux 会话中终止当前运行的 ilab 进程。系统会提示您输入一个原因,之后向 ilab 进程发送终止信号。
当您选择这个选项时,ilab_validation 子测试会返回 FAIL 状态。
以上选项在 ilab 进程的运行时可用。测试运行完成后,测试状态由在后台运行的观察器线程自动更新。
运行时间
以下是针对 2 个时期培训的 ilab_validation 测试的大约运行时间详情:
- SDG - 35 分钟
- 多阶段培训 - 30 小时提供全部培训,95 分钟用于简短培训
- 单阶段培训 - 10 分钟
- 组合评估 - 1 小时
运行时间值因 HUT 中存在 AI Accelerator 的类而异。
更新于 2025-11-14