12.8. 对 Topology Aware Lifecycle Manager 进行故障排除

Topology Aware Lifecycle Manager(TALM)是一个 OpenShift Container Platform Operator，用于修复 RHACM 策略。出现问题时，使用 oc adm must-gather 命令来收集详情和日志，并采取调试问题的步骤。

有关相关主题的更多信息，请参阅以下文档：

Red Hat Advanced Cluster Management for Kubernetes 2.4 Support Matrix
Red Hat Advanced Cluster Management 故障排除
"故障排除 Operator 问题"部分

12.8.1. 常规故障排除

您可以通过查看以下问题来确定问题的原因：

您要应用的配置是否被支持？
- RHACM 和 OpenShift Container Platform 版本是否兼容？
- TALM 和 RHACM 版本是否兼容？
以下哪个组件导致了此问题？

为确保 ClusterGroupUpgrade 配置可以正常工作，您可以执行以下操作：

创建 ClusterGroupUpgrade CR，并将 spec.enable 字段设置为 false。
等待状态更新，再完成故障排除问题。
如果所有内容都如预期，在 ClusterGroupUpgrade CR 中将 spec.enable 字段设置为 true。

警告

在 ClusterUpgradeGroup CR 中将 spec.enable 字段设置为 true 后，更新过程会启动，您无法再编辑 CR 的 spec 字段。

12.8.2. 无法修改 ClusterUpgradeGroup CR

问题

在启用更新后，您无法编辑 ClusterUpgradeGroup CR。

解决方案

通过执行以下步骤来重启操作：

运行以下命令删除旧 ClusterGroupUpgrade CR：

$ oc delete cgu -n <ClusterGroupUpgradeCR_namespace> <ClusterGroupUpgradeCR_name>

检查并修复受管集群和策略的现有问题。
1. 确保所有集群都是受管集群并可用。
2. 确保所有策略都存在，并将 spec.remediationAction 字段设置为 inform。
使用正确的配置创建一个新的 ClusterGroupUpgrade CR。
```
$ oc apply -f <ClusterGroupUpgradeCR_YAML>
```

12.8.3. 受管策略

检查系统中的受管策略

问题

您需要检查系统中是否有正确的受管策略。

解决方案

运行以下命令:

$ oc get cgu lab-upgrade -ojsonpath='{.spec.managedPolicies}'

输出示例

["group-du-sno-validator-du-validator-policy", "policy2-common-nto-sub-policy", "policy3-common-ptp-sub-policy"]

检查 remediationAction 模式

问题

您要检查在受管策略的 spec 中是否将 remediationAction 字段设置为 inform。

解决方案

运行以下命令:

$ oc get policies --all-namespaces

输出示例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

检查策略合规状态

问题

您需要检查策略的合规性状态。

解决方案

运行以下命令:

$ oc get policies --all-namespaces

输出示例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

12.8.4. Clusters

检查是否有受管集群

问题

您需要检查 ClusterGroupUpgrade CR 中的集群是受管集群。

解决方案

运行以下命令:

$ oc get managedclusters

输出示例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.example.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.example.com:6443     True     True        13d
spoke3          true           https://api.spoke3.example.com:6443     True     True        27h

或者，检查 TALM manager 日志：

运行以下命令，获取 TALM Manager 的名称：

$ oc get pod -n openshift-operators

输出示例

NAME                                                         READY   STATUS    RESTARTS   AGE
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp   2/2     Running   0          45m

运行以下命令检查 TALM manager 日志：

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

输出示例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"} 1
sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: 错误消息显示集群不是受管集群。

检查受管集群是否可用

问题

您需要检查 ClusterGroupUpgrade CR 中指定的受管集群是否可用。

解决方案

运行以下命令:

$ oc get managedclusters

输出示例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.testlab.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.testlab.com:6443     True     True        13d 1
spoke3          true           https://api.spoke3.testlab.com:6443     True     True        27h 2

1 2: 受管集群的 AVAILABLE 字段的值是 True。

检查 clusterLabelSelector

问题

您需要检查 ClusterGroupUpgrade CR 中指定的 clusterLabelSelector 字段是否至少与其中一个受管集群匹配。

解决方案

运行以下命令:

$ oc get managedcluster --selector=upgrade=true 1

1: 要更新的集群标签是 upgrade:true。

输出示例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                     JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443      True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443      True     True        27h

检查是否有 canary 集群

问题

您要检查集群列表中是否存在 Canary 集群。

ClusterGroupUpgrade CR 示例

spec:
    remediationStrategy:
        canaries:
        - spoke3
        maxConcurrency: 2
        timeout: 240
    clusterLabelSelectors:
      - matchLabels:
          upgrade: true

解决方案

运行以下命令：

$ oc get cgu lab-upgrade -ojsonpath='{.spec.clusters}'

输出示例

["spoke1", "spoke3"]

运行以下命令，检查与 clusterLabelSelector 标签匹配的集群列表中是否存在 Canary 集群：

$ oc get managedcluster --selector=upgrade=true

输出示例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS   JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443   True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443   True     True        27h

注意

集群可以存在于 spec.clusters 中，还可与 spec.clusterLabelSelector 标签匹配。

检查 spoke 集群上的预缓存状态

在 spoke 集群中运行以下命令来检查预缓存的状态：
```
$ oc get jobs,pods -n openshift-talo-pre-cache
```

12.8.5. 补救策略

检查 ClusterGroupUpgrade CR 中是否存在 remediationStrategy

问题

您需要检查 ClusterGroupUpgrade CR 是否存在 remediationStrategy。

解决方案

运行以下命令:

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy}'

输出示例

{"maxConcurrency":2, "timeout":240}

检查 ClusterGroupUpgrade CR 中是否指定了 maxConcurrency

问题

您需要检查是否在 ClusterGroupUpgrade CR 中指定 maxConcurrency。

解决方案

运行以下命令:

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy.maxConcurrency}'

输出示例

12.8.6. Topology Aware Lifecycle Manager

检查 ClusterGroupUpgrade CR 中的条件消息和状态

问题

您要检查 ClusterGroupUpgrade CR 中的 status.conditions 字段的值。

解决方案

运行以下命令:

$ oc get cgu lab-upgrade -ojsonpath='{.status.conditions}'

输出示例

{"lastTransitionTime":"2022-02-17T22:25:28Z", "message":"Missing managed policies:[policyList]", "reason":"NotAllManagedPoliciesExist", "status":"False", "type":"Validated"}

检查 status.remediationPlan 是否已计算

问题

您需要检查 status.remediationPlan 是否被计算。

解决方案

运行以下命令:

$ oc get cgu lab-upgrade -ojsonpath='{.status.remediationPlan}'

输出示例

[["spoke2", "spoke3"]]

TALM manager 容器中的错误

问题

您要检查 TALM 的 manager 容器的日志。

解决方案

运行以下命令:

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

输出示例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"} 1
sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: 显示错误。

在 `ClusterGroupUpgrade` CR 完成后，集群可能不符合一些策略

问题

TALM 用来决定是否需要补救的策略合规状态，还没有为所有集群完全更新。这可能是因为：

在策略创建或更新后，CGU 很快就会运行。
策略的补救会影响 ClusterGroupUpgrade CR 中后续策略的合规性。

解决方案

创建并应用具有相同规格的新 ClusterGroupUpdate CR。

在 GitOps ZTP 工作流中自动创建 `ClusterGroupUpgrade` CR 没有受管策略

问题: 如果集群变为 Ready 时，没有用于受管集群的策略，则会自动创建一个没有策略的 ClusterGroupUpgrade CR。完成 ClusterGroupUpgrade CR 后，受管集群被标记为 ztp-done。如果在推送 SiteConfig 资源后，如果 PolicyGenerator 或 PolicyGenTemplate CR 没有推送到 Git 存储库，则当集群变为 Ready 时，这可能会导致目标集群没有可用的策略。
解决方案: 验证您要应用的策略是否在 hub 集群中可用，然后使用所需策略创建一个 ClusterGroupUpgrade CR。

您可以手动创建 ClusterGroupUpgrade CR，或再次触发自动创建。要触发 ClusterGroupUpgrade CR 的自动创建，请从集群中删除 ztp-done 标签，并删除之前在 zip-install 命名空间中创建的空 ClusterGroupUpgrade CR。

预缓存失败

问题

预缓存可能会因为以下原因之一失败：

节点上没有足够的可用空间。
对于断开连接的环境，预缓存镜像没有正确镜像。
创建 pod 时存在问题。

解决方案

要检查预缓存是否已因为空间不足而失败，请检查节点中预缓存 pod 的日志。
1. 使用以下命令查找 pod 的名称：
```
$ oc get pods -n openshift-talo-pre-cache
```
2. 使用以下命令检查日志以查看错误是否与足够空间相关：
```
$ oc logs -n openshift-talo-pre-cache <pod name>
```
如果没有日志，使用以下命令检查 pod 状态：
```
$ oc describe pod -n openshift-talo-pre-cache <pod name>
```
如果 pod 不存在，请检查作业状态以查看它无法使用以下命令创建 pod 的原因：
```
$ oc describe job -n openshift-talo-pre-cache pre-cache
```

其他资源

12.8. 对 Topology Aware Lifecycle Manager 进行故障排除

12.8.1. 常规故障排除

12.8.2. 无法修改 ClusterUpgradeGroup CR

12.8.3. 受管策略

检查系统中的受管策略

检查 remediationAction 模式

检查策略合规状态

12.8.4. Clusters

检查是否有受管集群

检查受管集群是否可用

检查 clusterLabelSelector

检查是否有 canary 集群

检查 spoke 集群上的预缓存状态

12.8.5. 补救策略

检查 ClusterGroupUpgrade CR 中是否存在 remediationStrategy

检查 ClusterGroupUpgrade CR 中是否指定了 maxConcurrency

12.8.6. Topology Aware Lifecycle Manager

检查 ClusterGroupUpgrade CR 中的条件消息和状态

检查 status.remediationPlan 是否已计算

TALM manager 容器中的错误

在 `ClusterGroupUpgrade` CR 完成后，集群可能不符合一些策略

在 GitOps ZTP 工作流中自动创建 `ClusterGroupUpgrade` CR 没有受管策略

预缓存失败

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

12.8. 对 Topology Aware Lifecycle Manager 进行故障排除

12.8.1. 常规故障排除

12.8.2. 无法修改 ClusterUpgradeGroup CR

12.8.3. 受管策略

检查系统中的受管策略

检查 remediationAction 模式

检查策略合规状态

12.8.4. Clusters

检查是否有受管集群

检查受管集群是否可用

检查 clusterLabelSelector

检查是否有 canary 集群

检查 spoke 集群上的预缓存状态

12.8.5. 补救策略

检查 ClusterGroupUpgrade CR 中是否存在 remediationStrategy

检查 ClusterGroupUpgrade CR 中是否指定了 maxConcurrency

12.8.6. Topology Aware Lifecycle Manager

检查 ClusterGroupUpgrade CR 中的条件消息和状态

检查 status.remediationPlan 是否已计算

TALM manager 容器中的错误

在 ClusterGroupUpgrade CR 完成后，集群可能不符合一些策略

在 GitOps ZTP 工作流中自动创建 ClusterGroupUpgrade CR 没有受管策略

预缓存失败

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links

在 `ClusterGroupUpgrade` CR 完成后，集群可能不符合一些策略

在 GitOps ZTP 工作流中自动创建 `ClusterGroupUpgrade` CR 没有受管策略