第 26 章 节点问题检测程序
26.1. 概述
节点问题检测程序(Node Problem Detector)通过发现某些问题并向 API 服务器报告这些问题,来监控节点的健康状况。detector 在每个节点上作为 daemonset 运行。
节点问题检测程序只是一个技术预览功能。技术预览功能不包括在红帽生产服务级别协议(SLA)中,且其功能可能并不完善。因此,红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
如需红帽技术预览功能支持范围的更多信息,请参阅 https://access.redhat.com/support/offerings/techpreview/。
Node Problem Detector 读取系统日志并监视特定条目,并使 control plane 可以看到这些问题,您可以使用 OpenShift Container Platform 命令(如 oc get node
和 oc get event
)来查看。然后,您可以使用您选择的工具(如 OpenShift Container Platform 日志监控 )采取措施以纠正这些问题。检测到的问题可能位于以下类别之一:
-
NodeCondition
:使节点对 pod 不可用的持久性问题。在主机重启前,节点条件不会被清除。 -
事件
:对节点有限制影响的临时问题,但会信息。
节点问题检测程序可以检测到:
容器运行时问题:
- 无响应的运行时守护进程
硬件问题:
- 错误 CPU
- 错误内存
- 错误磁盘
内核问题:
- 内核死锁条件
- 损坏的文件系统
- 无响应的运行时守护进程
基础架构守护进程问题:
- NTP 服务中断