第 4 章 集群更新故障排除


4.1. 收集集群更新的数据

当联系红帽支持以获取更新时,务必要为支持团队提供数据,以便对失败的集群更新进行故障排除。

4.1.1. 为支持问题单收集日志数据

要从集群收集数据,包括日志数据,请使用 oc adm must-gather 命令。请参阅收集有关集群的数据

4.1.2. 使用 oc adm upgrade status 收集集群更新状态(技术预览)

在更新集群时,了解您更新的过程会很有用。oc adm upgrade 命令返回有关更新状态的有限信息,在这个版本引入了 oc adm upgrade status 命令作为一个技术预览功能。这个命令将状态信息与 oc adm upgrade 命令分离,并提供集群更新的具体信息,包括 control plane 和 worker 节点更新的状态。

oc adm upgrade status 命令是只读的,它永远不会更改集群中的任何状态。

重要

oc adm upgrade status 命令只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

oc adm upgrade status 命令可用于从 4.12 版本到最新支持的发行版本的集群。

重要

虽然您的集群不需要是一个启用了技术预览的集群,但您需要启用 OC_ENABLE_CMD_UPGRADE_STATUS 技术预览环境变量,否则 OpenShift CLI (oc) 将无法识别该命令,导致您无法使用该功能。

流程

  1. 运行以下命令,将 OC_ENABLE_CMD_UPGRADE_STATUS 环境变量设置为 true

    $ export OC_ENABLE_CMD_UPGRADE_STATUS=true
  2. 运行 oc adm upgrade status 命令:

    $ oc adm upgrade status

    例 4.1. 成功更新进度的输出示例

    = Control Plane =
    Assessment:      Progressing
    Target Version:  4.14.1 (from 4.14.0)
    Completion:      97%
    Duration:        54m
    Operator Status: 32 Healthy, 1 Unavailable
    
    Control Plane Nodes
    NAME                                        ASSESSMENT    PHASE      VERSION   EST    MESSAGE
    ip-10-0-53-40.us-east-2.compute.internal    Progressing   Draining   4.14.0    +10m
    ip-10-0-30-217.us-east-2.compute.internal   Outdated      Pending    4.14.0    ?
    ip-10-0-92-180.us-east-2.compute.internal   Outdated      Pending    4.14.0    ?
    
    = Worker Upgrade =
    
    = Worker Pool =
    Worker Pool:     worker
    Assessment:      Progressing
    Completion:      0%
    Worker Status:   3 Total, 2 Available, 1 Progressing, 3 Outdated, 1 Draining, 0 Excluded, 0 Degraded
    
    Worker Pool Nodes
    NAME                                        ASSESSMENT    PHASE      VERSION   EST    MESSAGE
    ip-10-0-4-159.us-east-2.compute.internal    Progressing   Draining   4.14.0    +10m
    ip-10-0-20-162.us-east-2.compute.internal   Outdated      Pending    4.14.0    ?
    ip-10-0-99-40.us-east-2.compute.internal    Outdated      Pending    4.14.0    ?
    
    = Worker Pool =
    Worker Pool:     infra
    Assessment:      Progressing
    Completion:      0%
    Worker Status:   1 Total, 0 Available, 1 Progressing, 1 Outdated, 1 Draining, 0 Excluded, 0 Degraded
    
    Worker Pool Node
    NAME                                             ASSESSMENT    PHASE      VERSION   EST    MESSAGE
    ip-10-0-4-159-infra.us-east-2.compute.internal   Progressing   Draining   4.14.0    +10m
    
    = Update Health =
    SINCE   LEVEL   IMPACT   MESSAGE
    14m4s   Info    None     Update is proceeding well

    通过这些信息,您可以对如何进行更新做出明智的决策。

4.1.3. 收集 ClusterVersion 历史记录

Cluster Version Operator (CVO) 记录对集群所做的更新,称为 ClusterVersion 历史记录。条目可以显示与潜在的触发器的集群行为更改之间的关联,尽管关联并不意味着会造成问题。

注意

初始、次版本和 z-stream 版本更新由 ClusterVersion 历史记录存储。但是 ClusterVersion 历史记录有大小限制。如果达到了限制,则会修剪之前次版本中最旧的 z-stream 更新以满足限制。

您可以使用 OpenShift Container Platform Web 控制台或使用 OpenShift CLI (oc) 查看 ClusterVersion 历史记录。

4.1.3.1. 在 OpenShift Container Platform Web 控制台中收集 ClusterVersion 历史记录

您可以在 OpenShift Container Platform Web 控制台中查看 ClusterVersion 历史记录。

先决条件

  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 访问 OpenShift Container Platform web 控制台。

流程

  • 在 web 控制台中点击 Administration Cluster Settings 并查看 Details 选项卡中的内容。

4.1.3.2. 使用 OpenShift CLI 收集 ClusterVersion 历史记录 (oc)

您可以使用 OpenShift CLI (oc) 查看 ClusterVersion 历史记录。

先决条件

  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 已安装 OpenShift CLI(oc)。

流程

  1. 输入以下命令查看集群更新历史记录:

    $ oc describe clusterversions/version

    输出示例

      Desired:
        Channels:
          candidate-4.13
          candidate-4.14
          fast-4.13
          fast-4.14
          stable-4.13
        Image:    quay.io/openshift-release-dev/ocp-release@sha256:a148b19231e4634196717c3597001b7d0af91bf3a887c03c444f59d9582864f4
        URL:      https://access.redhat.com/errata/RHSA-2023:6130
        Version:  4.13.19
      History:
        Completion Time:    2023-11-07T20:26:04Z
        Image:              quay.io/openshift-release-dev/ocp-release@sha256:a148b19231e4634196717c3597001b7d0af91bf3a887c03c444f59d9582864f4
        Started Time:       2023-11-07T19:11:36Z
        State:              Completed
        Verified:           true
        Version:            4.13.19
        Completion Time:    2023-10-04T18:53:29Z
        Image:              quay.io/openshift-release-dev/ocp-release@sha256:eac141144d2ecd6cf27d24efe9209358ba516da22becc5f0abc199d25a9cfcec
        Started Time:       2023-10-04T17:26:31Z
        State:              Completed
        Verified:           true
        Version:            4.13.13
        Completion Time:    2023-09-26T14:21:43Z
        Image:              quay.io/openshift-release-dev/ocp-release@sha256:371328736411972e9640a9b24a07be0af16880863e1c1ab8b013f9984b4ef727
        Started Time:       2023-09-26T14:02:33Z
        State:              Completed
        Verified:           false
        Version:            4.13.12
      Observed Generation:  4
      Version Hash:         CMLl3sLq-EA=
    Events:                 <none>

其他资源

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.