第 4 章 集群更新故障排除
4.1. 收集集群更新的数据
当联系红帽支持以获取更新时,务必要为支持团队提供数据,以便对失败的集群更新进行故障排除。
4.1.1. 为支持问题单收集日志数据
要从集群收集数据,包括日志数据,请使用 oc adm must-gather
命令。请参阅收集有关集群的数据。
4.1.2. 使用 oc adm upgrade status 收集集群更新状态(技术预览)
在更新集群时,了解您更新的过程会很有用。oc adm upgrade
命令返回有关更新状态的有限信息,在这个版本引入了 oc adm upgrade status
命令作为一个技术预览功能。这个命令将状态信息与 oc adm upgrade
命令分离,并提供集群更新的具体信息,包括 control plane 和 worker 节点更新的状态。
oc adm upgrade status
命令是只读的,它永远不会更改集群中的任何状态。
oc adm upgrade status
命令只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
oc adm upgrade status
命令可用于从 4.12 版本到最新支持的发行版本的集群。
虽然您的集群不需要是一个启用了技术预览的集群,但您需要启用 OC_ENABLE_CMD_UPGRADE_STATUS
技术预览环境变量,否则 OpenShift CLI (oc
) 将无法识别该命令,导致您无法使用该功能。
流程
运行以下命令,将
OC_ENABLE_CMD_UPGRADE_STATUS
环境变量设置为true
:$ export OC_ENABLE_CMD_UPGRADE_STATUS=true
运行
oc adm upgrade status
命令:$ oc adm upgrade status
例 4.1. 成功更新进度的输出示例
= Control Plane = Assessment: Progressing Target Version: 4.14.1 (from 4.14.0) Completion: 97% Duration: 54m Operator Status: 32 Healthy, 1 Unavailable Control Plane Nodes NAME ASSESSMENT PHASE VERSION EST MESSAGE ip-10-0-53-40.us-east-2.compute.internal Progressing Draining 4.14.0 +10m ip-10-0-30-217.us-east-2.compute.internal Outdated Pending 4.14.0 ? ip-10-0-92-180.us-east-2.compute.internal Outdated Pending 4.14.0 ? = Worker Upgrade = = Worker Pool = Worker Pool: worker Assessment: Progressing Completion: 0% Worker Status: 3 Total, 2 Available, 1 Progressing, 3 Outdated, 1 Draining, 0 Excluded, 0 Degraded Worker Pool Nodes NAME ASSESSMENT PHASE VERSION EST MESSAGE ip-10-0-4-159.us-east-2.compute.internal Progressing Draining 4.14.0 +10m ip-10-0-20-162.us-east-2.compute.internal Outdated Pending 4.14.0 ? ip-10-0-99-40.us-east-2.compute.internal Outdated Pending 4.14.0 ? = Worker Pool = Worker Pool: infra Assessment: Progressing Completion: 0% Worker Status: 1 Total, 0 Available, 1 Progressing, 1 Outdated, 1 Draining, 0 Excluded, 0 Degraded Worker Pool Node NAME ASSESSMENT PHASE VERSION EST MESSAGE ip-10-0-4-159-infra.us-east-2.compute.internal Progressing Draining 4.14.0 +10m = Update Health = SINCE LEVEL IMPACT MESSAGE 14m4s Info None Update is proceeding well
通过这些信息,您可以对如何进行更新做出明智的决策。
4.1.3. 收集 ClusterVersion 历史记录
Cluster Version Operator (CVO) 记录对集群所做的更新,称为 ClusterVersion 历史记录。条目可以显示与潜在的触发器的集群行为更改之间的关联,尽管关联并不意味着会造成问题。
初始、次版本和 z-stream 版本更新由 ClusterVersion 历史记录存储。但是 ClusterVersion 历史记录有大小限制。如果达到了限制,则会修剪之前次版本中最旧的 z-stream 更新以满足限制。
您可以使用 OpenShift Container Platform Web 控制台或使用 OpenShift CLI (oc
) 查看 ClusterVersion 历史记录。
4.1.3.1. 在 OpenShift Container Platform Web 控制台中收集 ClusterVersion 历史记录
您可以在 OpenShift Container Platform Web 控制台中查看 ClusterVersion 历史记录。
先决条件
-
您可以使用具有
cluster-admin
角色的用户访问集群。 - 访问 OpenShift Container Platform web 控制台。
流程
-
在 web 控制台中点击 Administration
Cluster Settings 并查看 Details 选项卡中的内容。
4.1.3.2. 使用 OpenShift CLI 收集 ClusterVersion 历史记录 (oc
)
您可以使用 OpenShift CLI (oc
) 查看 ClusterVersion 历史记录。
先决条件
-
您可以使用具有
cluster-admin
角色的用户访问集群。 -
已安装 OpenShift CLI(
oc
)。
流程
输入以下命令查看集群更新历史记录:
$ oc describe clusterversions/version
输出示例
Desired: Channels: candidate-4.13 candidate-4.14 fast-4.13 fast-4.14 stable-4.13 Image: quay.io/openshift-release-dev/ocp-release@sha256:a148b19231e4634196717c3597001b7d0af91bf3a887c03c444f59d9582864f4 URL: https://access.redhat.com/errata/RHSA-2023:6130 Version: 4.13.19 History: Completion Time: 2023-11-07T20:26:04Z Image: quay.io/openshift-release-dev/ocp-release@sha256:a148b19231e4634196717c3597001b7d0af91bf3a887c03c444f59d9582864f4 Started Time: 2023-11-07T19:11:36Z State: Completed Verified: true Version: 4.13.19 Completion Time: 2023-10-04T18:53:29Z Image: quay.io/openshift-release-dev/ocp-release@sha256:eac141144d2ecd6cf27d24efe9209358ba516da22becc5f0abc199d25a9cfcec Started Time: 2023-10-04T17:26:31Z State: Completed Verified: true Version: 4.13.13 Completion Time: 2023-09-26T14:21:43Z Image: quay.io/openshift-release-dev/ocp-release@sha256:371328736411972e9640a9b24a07be0af16880863e1c1ab8b013f9984b4ef727 Started Time: 2023-09-26T14:02:33Z State: Completed Verified: false Version: 4.13.12 Observed Generation: 4 Version Hash: CMLl3sLq-EA= Events: <none>
其他资源