ホーム
製品
OpenShift Container Platform
4.17
エッジコンピューティング
12.8. Topology Aware Lifecycle Manager のトラブルシューティング

12.8. Topology Aware Lifecycle Manager のトラブルシューティング

Topology Aware Lifecycle Manager (TALM) は、RHACM ポリシーを修復する OpenShift Container Platform Operator です。問題が発生した場合には、oc adm must-gather コマンドを使用して詳細およびログを収集し、問題のデバッグ手順を行います。

関連トピックの詳細は、以下のドキュメントを参照してください。

Red Hat Advanced Cluster Management for Kubernetes 2.4 Support Matrix
Red Hat Advanced Cluster Management Troubleshooting
「Operator の問題のトラブルシューティング」セクション

12.8.1. 一般的なトラブルシューティング
リンクのコピー

以下の質問を確認して、問題の原因を特定できます。

適用する設定がサポートされているか ?
- RHACM と OpenShift Container Platform のバージョンと互換性があるか ?
- TALM および RHACM のバージョンと互換性があるか ?
問題の原因となる以下のコンポーネントはどれですか ?

ClusterGroupUpgrade 設定が機能するようにするには、以下を実行できます。

spec.enable フィールドを false に設定して ClusterGroupUpgrade CR を作成します。
ステータスが更新され、トラブルシューティングの質問を確認するのを待ちます。
すべてが予想通りに機能する場合は、ClusterGroupUpgrade CR で spec.enable フィールドを true に設定します。

警告

ClusterUpgradeGroup CR で spec.enable フィールドを true に設定すると、更新手順が起動し、CR の spec フィールドを編集することができなくなります。

12.8.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

問題

更新を有効にした後に、ClusterUpgradeGroup CR を編集することはできません。

解決方法

以下の手順を実行して手順を再起動します。

以下のコマンドを実行して古い ClusterGroupUpgrade CR を削除します。

$ oc delete cgu -n <ClusterGroupUpgradeCR_namespace> <ClusterGroupUpgradeCR_name>

マネージドクラスターおよびポリシーに関する既存の問題を確認し、修正します。
1. すべてのクラスターがマネージドクラスターで、利用可能であることを確認します。
2. すべてのポリシーが存在し、spec.remediationAction フィールドが inform に設定されていることを確認します。
正しい設定で新規の ClusterGroupUpgrade CR を作成します。
```
$ oc apply -f <ClusterGroupUpgradeCR_YAML>
```

12.8.3. 管理ポリシー
リンクのコピー

システムでの管理ポリシーの確認

問題

システムで正しい管理ポリシーがあるかどうかをチェックする。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.managedPolicies}'

出力例

["group-du-sno-validator-du-validator-policy", "policy2-common-nto-sub-policy", "policy3-common-ptp-sub-policy"]

remediationAction モードの確認

問題

remediationAction フィールドが、管理ポリシーの spec で inform に設定されているかどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get policies --all-namespaces

出力例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

ポリシーコンプライアンスの状態の確認

問題

ポリシーのコンプライアンス状態を確認する。

解決方法

以下のコマンドを実行します。

$ oc get policies --all-namespaces

出力例

NAMESPACE   NAME                                                 REMEDIATION ACTION   COMPLIANCE STATE   AGE
default     policy1-common-cluster-version-policy                inform               NonCompliant       5d21h
default     policy2-common-nto-sub-policy                        inform               Compliant          5d21h
default     policy3-common-ptp-sub-policy                        inform               NonCompliant       5d21h
default     policy4-common-sriov-sub-policy                      inform               NonCompliant       5d21h

12.8.4. クラスター
リンクのコピー

マネージドクラスターが存在するかどうかの確認

問題

ClusterGroupUpgrade CR のクラスターがマネージドクラスターかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get managedclusters

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.example.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.example.com:6443     True     True        13d
spoke3          true           https://api.spoke3.example.com:6443     True     True        27h

または、TALM マネージャーログを確認します。

以下のコマンドを実行して、TALM マネージャーの名前を取得します。

$ oc get pod -n openshift-operators

出力例

NAME                                                         READY   STATUS    RESTARTS   AGE
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp   2/2     Running   0          45m

以下のコマンドを実行して、TALM マネージャーログを確認します。

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

出力例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"}


sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: エラーメッセージには、クラスターがマネージドクラスターではないことが分かります。

マネージドクラスターが利用可能かどうかの確認

問題

ClusterGroupUpgrade CR で指定されたマネージドクラスターが利用可能かどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get managedclusters

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                    JOINED   AVAILABLE   AGE
local-cluster   true           https://api.hub.testlab.com:6443        True     Unknown     13d
spoke1          true           https://api.spoke1.testlab.com:6443     True     True        13d


spoke3          true           https://api.spoke3.testlab.com:6443     True     True        27h

1 2: マネージドクラスターの AVAILABLE フィールドの値は True です。

clusterLabelSelector のチェック

問題

ClusterGroupUpgrade CR で指定された clusterLabelSelector フィールドが、マネージドクラスターの少なくとも 1 つと一致するか確認します。

解決方法

以下のコマンドを実行します。

$ oc get managedcluster --selector=upgrade=true

1: 更新するクラスターのラベルは upgrade:true です。

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS                     JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443      True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443      True     True        27h

カナリアクラスターが存在するかどうかの確認

問題

カナリアクラスターがクラスターのリストに存在するかどうかを確認します。

ClusterGroupUpgrade CR の例

spec:
    remediationStrategy:
        canaries:
        - spoke3
        maxConcurrency: 2
        timeout: 240
    clusterLabelSelectors:
      - matchLabels:
          upgrade: true

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.clusters}'

出力例

["spoke1", "spoke3"]

以下のコマンドを実行して、カナリアクラスターが clusterLabelSelector ラベルに一致するクラスターの一覧に存在するかどうかを確認します。

$ oc get managedcluster --selector=upgrade=true

出力例

NAME            HUB ACCEPTED   MANAGED CLUSTER URLS   JOINED    AVAILABLE   AGE
spoke1          true           https://api.spoke1.testlab.com:6443   True     True        13d
spoke3          true           https://api.spoke3.testlab.com:6443   True     True        27h

注記

クラスターは、spec.clusters に存在し、spec.clusterLabelSelector ラベルによって一致する場合もあります。

スポーククラスターでの事前キャッシュステータスの確認

スポーククラスターで以下のコマンドを実行して、事前キャッシュのステータスを確認します。
```
$ oc get jobs,pods -n openshift-talo-pre-cache
```

12.8.5. 修復ストラテジー
リンクのコピー

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

問題

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy}'

出力例

{"maxConcurrency":2, "timeout":240}

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

問題

maxConcurrency が ClusterGroupUpgrade CR で指定されているかどうかを確認する必要があります。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.spec.remediationStrategy.maxConcurrency}'

出力例

12.8.6. Topology Aware Lifecycle Manager
リンクのコピー

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

問題

ClusterGroupUpgrade CR の status.conditions フィールドの値を確認する必要がある場合があります。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.status.conditions}'

出力例

{"lastTransitionTime":"2022-02-17T22:25:28Z", "message":"Missing managed policies:[policyList]", "reason":"NotAllManagedPoliciesExist", "status":"False", "type":"Validated"}

status.remediationPlan が計算されたかどうかの確認

問題

status.remediationPlan が計算されているかどうかを確認します。

解決方法

以下のコマンドを実行します。

$ oc get cgu lab-upgrade -ojsonpath='{.status.remediationPlan}'

出力例

[["spoke2", "spoke3"]]

TALM マネージャーコンテナーのエラー

問題

TALM のマネージャーコンテナーのログを確認する必要がある場合があります。

解決方法

以下のコマンドを実行します。

$ oc logs -n openshift-operators \
cluster-group-upgrades-controller-manager-75bcc7484d-8k8xp -c manager

出力例

ERROR	controller-runtime.manager.controller.clustergroupupgrade	Reconciler error	{"reconciler group": "ran.openshift.io", "reconciler kind": "ClusterGroupUpgrade", "name": "lab-upgrade", "namespace": "default", "error": "Cluster spoke5555 is not a ManagedCluster"}


sigs.k8s.io/controller-runtime/pkg/internal/controller.(*Controller).processNextWorkItem

1: エラーを表示します。

`ClusterGroupUpgrade` CR が完了した後、クラスターが一部のポリシーに準拠していない

問題

修復が必要かどうかを判断するために TALM が使用するポリシーコンプライアンスステータスは、まだすべてのクラスターで完全に更新されていません。これには次の理由が考えられます。

ポリシーの作成または更新後、CGU の実行が早すぎました。
ポリシーの修復は、ClusterGroupUpgrade CR の後続のポリシーのコンプライアンスに影響します。

解決方法

同じ仕様で新しい ClusterGroupUpdate CR を作成して適用します。

GitOps ZTP ワークフローで自動作成された `ClusterGroupUpgrade` CR に管理ポリシーがない

問題: クラスターが Ready になったときにマネージドクラスターのポリシーがない場合、ポリシーのない ClusterGroupUpgrade CR が自動作成されます。ClusterGroupUpgrade CR が完了すると、マネージドクラスターには ztp-done というラベルが付けられます。SiteConfig リソースがプッシュされた後、必要な時間内に PolicyGenerator または PolicyGenTemplate CR が Git リポジトリーにプッシュされなかった場合、クラスターが Ready になったときにターゲットクラスターで使用できるポリシーがなくなる可能性があります。
解決方法: 適用するポリシーがハブクラスターで使用可能であることを確認してから、必要なポリシーを使用して ClusterGroupUpgrade CR を作成します。

ClusterGroupUpgrade CR を手動で作成するか、自動作成を再度トリガーすることができます。ClusterGroupUpgrade CR の自動作成をトリガーするには、クラスターから ztp-done ラベルを削除し、以前に zip-install namespace で作成された空の ClusterGroupUpgrade CR を削除します。

事前キャッシュに失敗しました

問題

事前キャッシュは、次のいずれかの理由で失敗する場合があります。

ノードに十分な空き容量がありません。
非接続環境では、事前キャッシュイメージが適切にミラーリングされていません。
Pod の作成中に問題が発生しました。

解決方法

スペース不足のために事前キャッシュが失敗したかどうかを確認するには、ノードの事前キャッシュ Pod のログを確認します。
1. 次のコマンドを使用して Pod の名前を見つけます。
  $ oc get pods -n openshift-talo-pre-cache
2. 次のコマンドを使用してログをチェックし、エラーが容量不足に関連しているかどうかを確認します。
  $ oc logs -n openshift-talo-pre-cache <pod name>
ログがない場合は、次のコマンドを使用して Pod のステータスを確認します。
```
$ oc describe pod -n openshift-talo-pre-cache <pod name>
```
Pod が存在しない場合は、次のコマンドを使用してジョブのステータスをチェックし、Pod を作成できなかった理由を確認します。
```
$ oc describe job -n openshift-talo-pre-cache pre-cache
```

12.8. Topology Aware Lifecycle Manager のトラブルシューティング

12.8.1. 一般的なトラブルシューティング
リンクのコピー

12.8.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

12.8.3. 管理ポリシー
リンクのコピー

システムでの管理ポリシーの確認

remediationAction モードの確認

ポリシーコンプライアンスの状態の確認

12.8.4. クラスター
リンクのコピー

マネージドクラスターが存在するかどうかの確認

マネージドクラスターが利用可能かどうかの確認

clusterLabelSelector のチェック

カナリアクラスターが存在するかどうかの確認

スポーククラスターでの事前キャッシュステータスの確認

12.8.5. 修復ストラテジー
リンクのコピー

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

12.8.6. Topology Aware Lifecycle Manager
リンクのコピー

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

status.remediationPlan が計算されたかどうかの確認

TALM マネージャーコンテナーのエラー

`ClusterGroupUpgrade` CR が完了した後、クラスターが一部のポリシーに準拠していない

GitOps ZTP ワークフローで自動作成された `ClusterGroupUpgrade` CR に管理ポリシーがない

事前キャッシュに失敗しました

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

12.8. Topology Aware Lifecycle Manager のトラブルシューティング

12.8.1. 一般的なトラブルシューティングリンクのコピーリンクがクリップボードにコピーされました!

12.8.2. ClusterUpgradeGroup CR を変更できません。リンクのコピーリンクがクリップボードにコピーされました!

12.8.3. 管理ポリシーリンクのコピーリンクがクリップボードにコピーされました!

システムでの管理ポリシーの確認

remediationAction モードの確認

ポリシーコンプライアンスの状態の確認

12.8.4. クラスターリンクのコピーリンクがクリップボードにコピーされました!

マネージドクラスターが存在するかどうかの確認

マネージドクラスターが利用可能かどうかの確認

clusterLabelSelector のチェック

カナリアクラスターが存在するかどうかの確認

スポーククラスターでの事前キャッシュステータスの確認

12.8.5. 修復ストラテジーリンクのコピーリンクがクリップボードにコピーされました!

remediationStrategy が ClusterGroupUpgrade CR に存在するかどうかの確認

ClusterGroupUpgrade CR に maxConcurrency が指定されているかどうかの確認

12.8.6. Topology Aware Lifecycle Managerリンクのコピーリンクがクリップボードにコピーされました!

ClusterGroupUpgrade CR での条件メッセージおよびステータスの確認

status.remediationPlan が計算されたかどうかの確認

TALM マネージャーコンテナーのエラー

ClusterGroupUpgrade CR が完了した後、クラスターが一部のポリシーに準拠していない

GitOps ZTP ワークフローで自動作成された ClusterGroupUpgrade CR に管理ポリシーがない

事前キャッシュに失敗しました

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

12.8.1. 一般的なトラブルシューティング
リンクのコピー

12.8.2. ClusterUpgradeGroup CR を変更できません。
リンクのコピー

12.8.3. 管理ポリシー
リンクのコピー

12.8.4. クラスター
リンクのコピー

12.8.5. 修復ストラテジー
リンクのコピー

12.8.6. Topology Aware Lifecycle Manager
リンクのコピー

`ClusterGroupUpgrade` CR が完了した後、クラスターが一部のポリシーに準拠していない

GitOps ZTP ワークフローで自動作成された `ClusterGroupUpgrade` CR に管理ポリシーがない