搜索

第 1 章 关于节点补救、隔离和维护

download PDF

硬件是 imperfect,软件包含 bug。当节点级别的故障(如内核挂起或网络接口控制器(NIC))失败时,集群所需的工作不会减少,并且受影响节点的工作负载需要在哪里重启。但是,一些工作负载(如 ReadWriteOnce (RWO) 卷和 StatefulSets)可能需要最少的语义。

影响这些工作负载的风险、损坏或两者的故障。在启动恢复工作负载(称为 补救 和理想情况)之前,确保节点达到安全状态(称为 隔离 )。

并不总是依赖于管理员干预来确认节点和工作负载的真正状态。为了便于实现此类干预,Red Hat OpenShift 为自动化故障检测、隔离和修复提供了多个组件。

1.1. 自助服务修复

Self Node Remediation Operator 是一个 Red Hat OpenShift 附加组件 Operator,它实现了隔离的外部系统,补救重启不健康的节点并删除资源,如 Pod 和 VolumeAttachments。重启可确保工作负载被隔离,资源删除会加快重新调度受影响工作负载。与其他外部系统不同,自助节点修复不需要任何管理界面,如智能平台管理接口 (IPMI) 或用于节点置备的 API。

失败的检测系统可以使用自助服务修复,如 Machine Health Check 或 Node Health Check。

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.