11.7. 内核
更新了 stalld 调度策略回归以防止性能下降
在此次更新之前,Node Tuning Operator CI 可能会因为停止的调度策略而出现问题。这个更改会导致服务在启动后恢复到 SCHED_OTHER 而不是 SCHED_FIFO。因此,实时工作负载可能会遇到性能下降,您无法合并 PR。在这个版本中,systemd 单元文件将 stalld 优先级设置为 10,确保 stalld 使用 SCHED_FIFO 运行。这会恢复预期的行为,并提高了实时工作负载的性能。
osnoise/cpus 允许设置以逗号分隔的 cpus 列表
在此次更新之前,由于无效的参数错误,您无法在 osnoise/cpus 中设置以长度分开的 cpu 列表。这限制了受影响的延迟调试和故障排除。在这个版本中,您可以在 osnoise/cpus 中输入用逗号分开的 cpu 列表,以增强 RTLA 延迟调试和故障排除。
Jira:RHEL-86520[1]
rtla timerlat 现在在有 100 个 CPU 的系统上处理高频率抽样
在此次更新之前,rtl a timerlat 无法处理带有 100 个句点的计时器样本,或在超过 100 个 CPU 的系统上处理计时器样本,因为 tracefs 缓冲区处理不足。因此,样本被丢弃,timerlat 测量会变得不准确,影响实时性能分析。在这个版本中,timerlat 样本直接在测量 CPU 上收集,从而消除了缓冲区溢出问题。因此,rtla timerlat 在高核计数系统上提供准确的测量,从而启用可靠的实时性能分析。
Jira:RHEL-77357[1]
rtla timerlat 在启动时不会重置 osnoise 停止追踪阈值
在此次更新之前,在不清除 stop_tracing 标志的情况下多次使用 rtla timerlat 会使/左 RTLA 处于不一致的状态。因此,当没有通过 -a、-T 或 -i 选项请求停止追踪时,追踪无法正确停止。这会导致报告不准确的数据,因为当 RTLA 不应有时退出。在这个版本中,rtla -timerlat 会重置跟踪变量,防止早期退出,从而改进了程序稳定性。
Jira:RHEL-73865[1]