2.2. 隔离概述


在集群系统中,可能有很多节点在几个重要生产数据上工作。忙碌的多节点集群中的节点可能会开始错误操作,或者变得不可用,并提示管理员动作。通过建立 隔离 策略可以缓解由错误集群节点造成的问题。
隔离(fencing)是节点与集群共享存储的断开连接。隔离会从共享存储中关闭 I/O,从而确保数据的完整性。集群基础架构通过 STONITH 工具执行隔离。
当 Pacemaker 确定节点失败时,它会与节点失败的其他集群基础架构组件通信。当出现故障时,STONITH 会隔离失败的节点。其他集群基础结构组件决定要采取什么操作,包括执行任何需要进行的恢复。例如,DLM 和 GFS2 当节点失败通知时,会挂起活动,直到它们检测到 STONITH 已经完成了对故障节点的隔离。确认有故障节点被隔离后,DLM 和 GFS2 执行恢复。DLM 释放失败节点的锁定 ; GFS2 恢复失败节点的日志。
通过 STONITH 进行节点级别的隔离可使用各种支持的隔离设备进行配置,其中包括:
  • 不可破坏的电源电源(UPS)- 包含一个可以用来在电源失败时用来隔离设备的刻板设备
  • 电源分布单元(PDU)- 在数据中心使用多个电源来提供干净的电源以及隔离和电源隔离服务的设备
  • Blade power control 设备 - 在数据中心中安装的专用系统配置为在出现故障时隔离集群节点
  • lights-out 设备 - 管理集群节点可用性的网络连接设备,并可由管理员在本地或远程执行隔离、电源/关闭和其他服务
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.