2.3.11.4. Node Problem Detector (技术预览)
此功能当前还是一个 技术预览功能,不适用于生产环境中的工作负载。
节点问题检测程序(Node Problem Detector)通过发现特定的问题并向 API 服务器报告这些问题,从而监控节点的健康状况,外部控制器可以在此采取行动。节点问题检测程序是一个作为 DaemonSet 在每个节点中运行的守护进程。守护进程试图让集群了解节点级别错误,这会导致该节点不可调度。当您启动节点问题检测程序时,会告诉它应该广播发现的问题的端口。这个检测程序允许您加载子守护进程来进行数据收集。截止现在,有三个。问题守护进程发现的问题可归类为 NodeCondition
。
三个问题守护进程是:
- 内核监视器(Kernel Monitor),它通过 journald 监控内核日志,并根据常规模式报告问题。
- AbrtAdaptor,用于监控节点是否有内核问题,应用程序会从 journald 崩溃。
-
CustomerPluginMonitor,它允许您测试任何条件,以及在条件不满足的情况下以
0
或1
退出。
如需更多信息,请参阅节点问题检测程序。