第 26 章 节点问题检测程序


26.1. 概述

节点问题检测程序(Node Problem Detector)通过发现某些问题并向 API 服务器报告这些问题,来监控节点的健康状况。detector 在每个节点上作为 daemonset 运行。

重要

节点问题检测程序只是一个技术预览功能。技术预览功能不包括在红帽生产服务级别协议(SLA)中,且其功能可能并不完善。因此,红帽不建议在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

如需红帽技术预览功能支持范围的更多信息,请参阅 https://access.redhat.com/support/offerings/techpreview/

Node Problem Detector 读取系统日志并监视特定条目,并使 control plane 可以看到这些问题,您可以使用 OpenShift Container Platform 命令(如 oc get nodeoc get event )来查看。然后,您可以使用您选择的工具(如 OpenShift Container Platform 日志监控 )采取措施以纠正这些问题。检测到的问题可能位于以下类别之一:

  • NodeCondition:使节点对 pod 不可用的持久性问题。在主机重启前,节点条件不会被清除。
  • 事件 :对节点有限制影响的临时问题,但会信息。

节点问题检测程序可以检测到:

  • 容器运行时问题:

    • 无响应的运行时守护进程
  • 硬件问题:

    • 错误 CPU
    • 错误内存
    • 错误磁盘
  • 内核问题:

    • 内核死锁条件
    • 损坏的文件系统
    • 无响应的运行时守护进程
  • 基础架构守护进程问题:

    • NTP 服务中断
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.