ホーム
製品
OpenShift Container Platform
4.11
スケーラビリティーおよびパフォーマンス
18.9. Topology Aware Lifecycle Manager のトラブルシューティング

18.9. Topology Aware Lifecycle Manager のトラブルシューティング

Topology Aware Lifecycle Manager (TALM) は、RHACM ポリシーを修復する OpenShift Container Platform Operator です。問題が発生した場合には、oc adm must-gather コマンドを使用して詳細およびログを収集し、問題のデバッグ手順を行います。

関連トピックの詳細は、以下のドキュメントを参照してください。

Red Hat Advanced Cluster Management for Kubernetes 2.4 Support Matrix
Red Hat Advanced Cluster Management Troubleshooting
Operator の問題のトラブルシューティングセクション

18.9.1. 一般的なトラブルシューティング
リンクのコピー

以下の質問を確認して、問題の原因を特定できます。

適用する設定がサポートされているか ?
- RHACM と OpenShift Container Platform のバージョンと互換性があるか ?
- TALM および RHACM のバージョンと互換性があるか ?
問題の原因となる以下のコンポーネントはどれですか ?

ClusterGroupUpgrade 設定が機能するようにするには、以下を実行できます。

spec.enable フィールドを false に設定して ClusterGroupUpgrade CR を作成します。
ステータスが更新され、トラブルシューティングの質問を確認するのを待ちます。
すべてが予想通りに機能する場合は、ClusterGroupUpgrade CR で spec.enable フィールドを true に設定します。

警告

ClusterUpgradeGroup CR で spec.enable フィールドを true に設定すると、更新手順が起動し、CR の spec フィールドを編集することができなくなります。

18.9.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

問題

更新を有効にした後に、ClusterUpgradeGroup CR を編集することはできません。

解決方法

以下の手順を実行して手順を再起動します。

以下のコマンドを実行して古い ClusterGroupUpgrade CR を削除します。

$ oc delete cgu -n <ClusterGroupUpgradeCR_namespace> <ClusterGroupUpgradeCR_name>

マネージドクラスターおよびポリシーに関する既存の問題を確認し、修正します。
1. すべてのクラスターがマネージドクラスターで、利用可能であることを確認します。
2. すべてのポリシーが存在し、spec.remediationAction フィールドが inform に設定されていることを確認します。
正しい設定で新規の ClusterGroupUpgrade CR を作成します。
```
$ oc apply -f <ClusterGroupUpgradeCR_YAML>
```

18.9.3. 管理ポリシー
リンクのコピー

システムでの管理ポリシーの確認

問題

システムで正しい管理ポリシーがあるかどうかをチェックする。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.managedPolicies}'

出力例

["group-du-sno-validator-du-validator-policy", "policy2-common-nto-sub-policy", "policy3-common-ptp-sub-policy"]

remediationAction モードの確認

問題

remediationAction フィールドが、管理ポリシーの spec で inform に設定されているかどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get policies --all-namespaces

出力例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

ポリシーコンプライアンスの状態の確認

問題

ポリシーのコンプライアンス状態を確認する。

解決方法

以下のコマンドを実行します。

$ oc get policies --all-namespaces

出力例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

18.9.4. クラスター
リンクのコピー

マネージドクラスターが存在するかどうかの確認

問題

ClusterGroupUpgrade CR のクラスターがマネージドクラスターかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get managedclusters

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.example.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.example.com:6443     True     True        13d
spoke3          true           https://api.spoke3.example.com:6443     True     True        27h

または、TALM マネージャーログを確認します。

以下のコマンドを実行して、TALM マネージャーの名前を取得します。

$ oc get pod -n openshift-operators

出力例

NAME                                                         READY   STATUS    RESTARTS   AGE
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp   2/2     Running   0          45m

以下のコマンドを実行して、TALM マネージャーログを確認します。

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

出力例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"}


sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: エラーメッセージには、クラスターがマネージドクラスターではないことが分かります。

マネージドクラスターが利用可能かどうかの確認

問題

ClusterGroupUpgrade CR で指定されたマネージドクラスターが利用可能かどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get managedclusters

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.testlab.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.testlab.com:6443     True     True        13d


spoke3          true           https://api.spoke3.testlab.com:6443     True     True        27h

1 2: マネージドクラスターの AVAILABLE フィールドの値は True です。

clusterSelector の確認

問題

clusterSelector フィールドが 1 つ以上のマネージドクラスターの ClusterGroupUpgrade CR で指定されているかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get managedcluster --selector=upgrade=true

1: 更新するクラスターのラベルは upgrade:true です。

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                     JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443      True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443      True     True        27h

カナリアクラスターが存在するかどうかの確認

問題

カナリアクラスターがクラスターのリストに存在するかどうかを確認します。

ClusterGroupUpgrade CR の例

spec:
    clusters:
    - spoke1
    - spoke3
    clusterSelector:
    - upgrade2=true
    remediationStrategy:
        canaries:
        - spoke3
        maxConcurrency: 2
        timeout: 240

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.clusters}'

出力例

["spoke1", "spoke3"]

以下のコマンドを実行して、カナリアクラスターが clusterSelector ラベルに一致するクラスターのリストに存在するかどうかを確認します。

$ oc get managedcluster --selector=upgrade=true

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS   JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443   True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443   True     True        27h

注記

クラスターは spec.clusters に存在し、spec.clusterSelecter ラベルでも一致できます。

スポーククラスターでの事前キャッシュステータスの確認

スポーククラスターで以下のコマンドを実行して、事前キャッシュのステータスを確認します。
```
$ oc get jobs,pods -n openshift-talo-pre-cache
```

18.9.5. 修復ストラテジー
リンクのコピー

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

問題

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy}'

出力例

{"maxConcurrency":2, "timeout":240}

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

問題

maxConcurrency が ClusterGroupUpgrade CR で指定されているかどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy.maxConcurrency}'

出力例

18.9.6. Topology Aware Lifecycle Manager
リンクのコピー

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

問題

ClusterGroupUpgrade CR の status.conditions フィールドの値を確認する必要がある場合があります。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.status.conditions}'

出力例

{"lastTransitionTime":"2022-02-17T22:25:28Z", "message":"The ClusterGroupUpgrade CR has managed policies that are missing:[policyThatDoesntExist]", "reason":"UpgradeCannotStart", "status":"False", "type":"Ready"}

対応するコピーされたポリシーの確認

問題

status.managedPoliciesForUpgrade からのすべてのポリシーに status.copiedPolicies に対応するポリシーがあるかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -oyaml

出力例

status:
  …
  copiedPolicies:
  - lab-upgrade-policy3-common-ptp-sub-policy
  managedPoliciesForUpgrade:
  - name: policy3-common-ptp-sub-policy
    namespace: default

status.remediationPlan が計算されたかどうかの確認

問題

status.remediationPlan が計算されているかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.status.remediationPlan}'

出力例

[["spoke2", "spoke3"]]

TALM マネージャーコンテナーのエラー

問題

TALM のマネージャーコンテナーのログを確認する必要がある場合があります。

解決方法

以下のコマンドを実行します。

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

出力例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"}


sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: エラーを表示します。

18.9. Topology Aware Lifecycle Manager のトラブルシューティング

18.9.1. 一般的なトラブルシューティング
リンクのコピー

18.9.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

18.9.3. 管理ポリシー
リンクのコピー

システムでの管理ポリシーの確認

remediationAction モードの確認

ポリシーコンプライアンスの状態の確認

18.9.4. クラスター
リンクのコピー

マネージドクラスターが存在するかどうかの確認

マネージドクラスターが利用可能かどうかの確認

clusterSelector の確認

カナリアクラスターが存在するかどうかの確認

スポーククラスターでの事前キャッシュステータスの確認

18.9.5. 修復ストラテジー
リンクのコピー

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

18.9.6. Topology Aware Lifecycle Manager
リンクのコピー

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

対応するコピーされたポリシーの確認

status.remediationPlan が計算されたかどうかの確認

TALM マネージャーコンテナーのエラー

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

18.9. Topology Aware Lifecycle Manager のトラブルシューティング

18.9.1. 一般的なトラブルシューティングリンクのコピーリンクがクリップボードにコピーされました!

18.9.2. ClusterUpgradeGroup CR を変更できません。リンクのコピーリンクがクリップボードにコピーされました!

18.9.3. 管理ポリシーリンクのコピーリンクがクリップボードにコピーされました!

システムでの管理ポリシーの確認

remediationAction モードの確認

ポリシーコンプライアンスの状態の確認

18.9.4. クラスターリンクのコピーリンクがクリップボードにコピーされました!

マネージドクラスターが存在するかどうかの確認

マネージドクラスターが利用可能かどうかの確認

clusterSelector の確認

カナリアクラスターが存在するかどうかの確認

スポーククラスターでの事前キャッシュステータスの確認

18.9.5. 修復ストラテジーリンクのコピーリンクがクリップボードにコピーされました!

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

18.9.6. Topology Aware Lifecycle Managerリンクのコピーリンクがクリップボードにコピーされました!

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

対応するコピーされたポリシーの確認

status.remediationPlan が計算されたかどうかの確認

TALM マネージャーコンテナーのエラー

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

18.9.1. 一般的なトラブルシューティング
リンクのコピー

18.9.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

18.9.3. 管理ポリシー
リンクのコピー

18.9.4. クラスター
リンクのコピー

18.9.5. 修復ストラテジー
リンクのコピー

18.9.6. Topology Aware Lifecycle Manager
リンクのコピー