5.5. 高可用性
通过高可用性,Service Telemetry Framework (STF)可以从组件服务中的故障快速恢复。虽然如果节点可用于调度工作负载,Red Hat OpenShift Container Platform 会重启失败的 pod,但此恢复过程可能需要一分钟,在此期间事件和指标会丢失。高可用性配置包含多个 STF 组件副本,这减少了恢复时间大约 2 秒。为防止 Red Hat OpenShift Container Platform 节点失败,请将 STF 部署到具有三个或更多节点的 Red Hat OpenShift Container Platform 集群。
STF 尚不是一个完全容错的系统。无法保证在恢复期间提供指标和事件。
启用高可用性有以下影响:
- 三个 Elasticsearch Pod 运行而不是默认 Pod。
以下组件运行两个 pod 而不是默认 pod:
- AMQ Interconnect
- Alertmanager
- Prometheus
- 事件智能网关
- 指标智能网关
- 在这些服务中从丢失的 pod 恢复时间可减少大约 2 秒。
5.5.1. 配置高可用性 复制链接链接已复制到粘贴板!
要为高可用性配置 Service Telemetry Framework (STF),请在 Red Hat OpenShift Container Platform 的 ServiceTelemetry 对象中添加 highAvailability.enabled: true
。您可以在安装时设置此参数,或者已部署了 STF,请完成以下步骤:
流程
- 登录到 Red Hat OpenShift Container Platform。
进入
service-telemetry
命名空间:oc project service-telemetry
$ oc project service-telemetry
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用 oc 命令编辑 ServiceTelemetry 对象:
oc edit stf default
$ oc edit stf default
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在
spec
部分添加highAvailability.enabled: true
:Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 保存更改并关闭对象。