ホーム
製品
OpenShift Container Platform
4.15
エッジコンピューティング
11.7. アップグレード前のクラスターリソースのバックアップの作成

11.7. アップグレード前のクラスターリソースのバックアップの作成

シングルノード OpenShift の場合、Topology Aware Lifecycle Manager (TALM) は、アップグレード前にデプロイメントのバックアップを作成できます。アップグレードが失敗した場合は、以前のバージョンを回復し、アプリケーションの再プロビジョニングを必要とせずにクラスターを動作状態に復元できます。

バックアップ機能を使用するには、最初に backup フィールドを true に設定して ClusterGroupUpgrade CR を作成します。バックアップの内容が最新であることを確認するために、ClusterGroupUpgrade CR の enable フィールドを true に設定するまで、バックアップは取得されません。

TALM は BackupSucceeded 条件を使用して、ステータスと理由を次のように報告します。

true
すべてのクラスターのバックアップが完了したか、バックアップの実行が完了したが、1 つ以上のクラスターで失敗しました。いずれかのクラスターでバックアップが失敗した場合、そのクラスターの更新は続行されません。
false
1 つ以上のクラスターのバックアップがまだ進行中か、すべてのクラスターのバックアップが失敗しました。スポーククラスターで実行されているバックアッププロセスには、次のステータスがあります。
- PreparingToStart
  最初の調整パスが進行中です。TALM は、失敗したアップグレード試行で作成されたスポークバックアップネームスペースとハブビューリソースをすべて削除します。
- Starting
  バックアップの前提条件とバックアップジョブを作成しています。
- Active
  バックアップが進行中です。
- Succeeded
  バックアップは成功しました。
- BackupTimeout
  アーティファクトのバックアップは部分的に行われます。
- UnrecoverableError
  バックアップはゼロ以外の終了コードで終了しました。

注記

クラスターのバックアップが失敗し、BackupTimeout または UnrecoverableError 状態になると、そのクラスターのクラスター更新は続行されません。他のクラスターへの更新は影響を受けず、続行されます。

11.7.1. バックアップを含む ClusterGroupUpgrade CR の作成
リンクのコピー

シングルノード OpenShift クラスターでアップグレードする前に、デプロイメントのバックアップを作成できます。アップグレードが失敗した場合は、Topology Aware Lifecycle Manager (TALM) によって生成された upgrade-recovery.sh スクリプトを使用して、システムをアップグレード前の状態に戻すことができます。バックアップは次の項目で構成されています。

クラスターのバックアップ: etcd と静的 Pod マニフェストのスナップショット。
コンテンツのバックアップ: /etc、/usr/local、/var/lib/kubelet などのフォルダーのバックアップ。
変更されたファイルのバックアップ: 変更された machine-config によって管理されるすべてのファイル。
Deployment: 固定された ostree デプロイメント。
イメージ (オプション): 使用中のコンテナーイメージ。

前提条件

Topology Aware Lifecycle Manager (TALM) をインストールしている。
1 つ以上のマネージドクラスターをプロビジョニングします。
cluster-admin 権限を持つユーザーとしてログインしている。
Red Hat Advanced Cluster Management 2.2.4 をインストールします。

注記

リカバリーパーティションを作成することを強く推奨します。以下は、50 GB のリカバリーパーティションの SiteConfig カスタムリソース (CR) の例です。

nodes:
    - hostName: "node-1.example.com"
    role: "master"
    rootDeviceHints:
        hctl: "0:2:0:0"
        deviceName: /dev/disk/by-id/scsi-3600508b400105e210000900000490000
...
    #Disk /dev/disk/by-id/scsi-3600508b400105e210000900000490000:
    #893.3 GiB, 959119884288 bytes, 1873281024 sectors
    diskPartition:
        - device: /dev/disk/by-id/scsi-3600508b400105e210000900000490000
        partitions:
        - mount_point: /var/recovery
            size: 51200
            start: 800000

手順

clustergroupupgrades-group-du.yaml ファイルで、backup フィールドと enable フィールドを true に設定して、ClusterGroupUpgrade CR の内容を保存します。

apiVersion: ran.openshift.io/v1alpha1
kind: ClusterGroupUpgrade
metadata:
  name: du-upgrade-4918
  namespace: ztp-group-du-sno
spec:
  preCaching: true
  backup: true
  clusters:
  - cnfdb1
  - cnfdb2
  enable: true
  managedPolicies:
  - du-upgrade-platform-upgrade
  remediationStrategy:
    maxConcurrency: 2
    timeout: 240

更新を開始するには、次のコマンドを実行して ClusterGroupUpgrade CR を適用します。
```
$ oc apply -f clustergroupupgrades-group-du.yaml
```

検証

以下のコマンドを実行して、ハブクラスターのアップグレードのステータスを確認します。

$ oc get cgu -n ztp-group-du-sno du-upgrade-4918 -o jsonpath='{.status}'

出力例

{
    "backup": {
        "clusters": [
            "cnfdb2",
            "cnfdb1"
    ],
    "status": {
        "cnfdb1": "Succeeded",
        "cnfdb2": "Failed"


    }
},
"computedMaxConcurrency": 1,
"conditions": [
    {
        "lastTransitionTime": "2022-04-05T10:37:19Z",
        "message": "Backup failed for 1 cluster",


        "reason": "PartiallyDone",


        "status": "True",


        "type": "Succeeded"
    }
],
"precaching": {
    "spec": {}
},
"status": {}

1: 1 つのクラスターのバックアップが失敗しました。
2: このメッセージは、1 つのクラスターのバックアップが失敗したことを確認します。
3: バックアップは部分的に成功しました。
4: バックアッププロセスが終了しました。

11.7.2. アップグレードが失敗した後のクラスターのリカバリー
リンクのコピー

クラスターのアップグレードが失敗した場合は、手動でクラスターにログインし、バックアップを使用してクラスターをアップグレード前の状態に戻すことができます。次の 2 つの段階があります。

ロールバック: 試行されたアップグレードにプラットフォーム OS 展開への変更が含まれていた場合は、回復スクリプトを実行する前に、以前のバージョンにロールバックする必要があります。

重要

ロールバックは、TALM およびシングルノード OpenShift からのアップグレードにのみ適用されます。このプロセスは、他のアップグレードタイプからのロールバックには適用されません。

復元: リカバリーはコンテナーをシャットダウンし、バックアップパーティションのファイルを使用してコンテナーを再起動し、クラスターを復元します。

前提条件

Topology Aware Lifecycle Manager (TALM) をインストールしている。
1 つ以上のマネージドクラスターをプロビジョニングします。
Red Hat Advanced Cluster Management 2.2.4 をインストールします。
cluster-admin 権限を持つユーザーとしてログインしている。
バックアップ用に設定されたアップグレードを実行します。

手順

次のコマンドを実行して、以前に作成した ClusterGroupUpgrade カスタムリソース (CR) を削除します。
```
$ oc delete cgu/du-upgrade-4918 -n ztp-group-du-sno
```
リカバリーするクラスターにログインします。

次のコマンドを実行して、プラットフォーム OS の展開のステータスを確認します。

$ ostree admin status

出力例

[root@lab-test-spoke2-node-0 core]# ostree admin status
* rhcos c038a8f08458bbed83a77ece033ad3c55597e3f64edad66ea12fda18cbdceaf9.0
    Version: 49.84.202202230006-0
    Pinned: yes


    origin refspec: c038a8f08458bbed83a77ece033ad3c55597e3f64edad66ea12fda18cbdceaf9

1: 現在の展開は固定されています。プラットフォーム OS 展開のロールバックは必要ありません。

[root@lab-test-spoke2-node-0 core]# ostree admin status
* rhcos f750ff26f2d5550930ccbe17af61af47daafc8018cd9944f2a3a6269af26b0fa.0
    Version: 410.84.202204050541-0
    origin refspec: f750ff26f2d5550930ccbe17af61af47daafc8018cd9944f2a3a6269af26b0fa
rhcos ad8f159f9dc4ea7e773fd9604c9a16be0fe9b266ae800ac8470f63abc39b52ca.0 (rollback)


    Version: 410.84.202203290245-0
    Pinned: yes


    origin refspec: ad8f159f9dc4ea7e773fd9604c9a16be0fe9b266ae800ac8470f63abc39b52ca

1: このプラットフォーム OS の展開は、ロールバックの対象としてマークされています。
2: 以前の展開は固定されており、ロールバックできます。

プラットフォーム OS 展開のロールバックをトリガーするには、次のコマンドを実行します。
```
$ rpm-ostree rollback -r
```
復元の最初のフェーズでは、コンテナーをシャットダウンし、ファイルをバックアップパーティションから対象のディレクトリーに復元します。リカバリーを開始するには、次のコマンドを実行します。
```
$ /var/recovery/upgrade-recovery.sh
```
プロンプトが表示されたら、次のコマンドを実行してクラスターを再起動します。
```
$ systemctl reboot
```
再起動後、次のコマンドを実行してリカバリーを再開します。
```
$ /var/recovery/upgrade-recovery.sh  --resume
```

注記

リカバリーユーティリティーが失敗した場合は、--restart オプションを使用して再試行できます。

$ /var/recovery/upgrade-recovery.sh --restart

検証

リカバリーのステータスを確認するには、次のコマンドを実行します。

$ oc get clusterversion,nodes,clusteroperator

出力例

NAME                                         VERSION   AVAILABLE   PROGRESSING   SINCE   STATUS
clusterversion.config.openshift.io/version   4.4.15.23    True        False         86d     Cluster version is 4.4.15.23




NAME                          STATUS   ROLES           AGE   VERSION
node/lab-test-spoke1-node-0   Ready    master,worker   86d   v1.22.3+b93fd35



NAME                                                                           VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
clusteroperator.config.openshift.io/authentication                             4.4.15.23    True        False         False      2d7h


clusteroperator.config.openshift.io/baremetal                                  4.4.15.23    True        False         False      86d


..............

1: クラスターのバージョンが利用可能であり、正しいバージョンを持っています。
2: ノードのステータスは Ready です。
3: ClusterOperator オブジェクトの可用性は True です。

11.7. アップグレード前のクラスターリソースのバックアップの作成

11.7.1. バックアップを含む ClusterGroupUpgrade CR の作成
リンクのコピー

11.7.2. アップグレードが失敗した後のクラスターのリカバリー
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

11.7. アップグレード前のクラスターリソースのバックアップの作成

11.7.1. バックアップを含む ClusterGroupUpgrade CR の作成リンクのコピーリンクがクリップボードにコピーされました!

11.7.2. アップグレードが失敗した後のクラスターのリカバリーリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

11.7.1. バックアップを含む ClusterGroupUpgrade CR の作成
リンクのコピー

11.7.2. アップグレードが失敗した後のクラスターのリカバリー
リンクのコピー