第6章 バグ修正
このセクションでは、Red Hat OpenShift Data Foundation 4.14 で導入された重要なバグ修正について説明します。
6.1. 障害復旧
ブロックリストに登録しても Pod がエラー状態でスタックすることはなくなりました
以前のリリースでは、ネットワークの問題、または非常に過負荷/不均衡なクラスターが原因でブロックリスト登録が実行されると、テイルレイテンシーが急増しました。このため、Pod が
CreateContainerError
で停止し、Error: relabel failed /var/lib/kubelet/pods/cb27938e-f66f-401d-85f0-9eb5cf565ace/volumes/kubernetes.io~csi/pvc-86e7da91-29f9-4418-80a7-4ae7610bb613/mount: lsetxattr /var/lib/kubelet/pods/cb27938e-f66f-401d-85f0-9eb5cf565ace/volumes/kubernetes.io~csi/pvc-86e7da91-29f9-4418-80a7-4ae7610bb613/mount/#ib_16384_0.dblwr: read-only file system
というメッセージが表示されました。この修正により、ブロックリストに登録しても Pod がエラー状態でスタックすることはなくなりました。
Ceph は Globalnet によって割り当てられたグローバル IP を認識するようになりました
以前のリリースでは、Ceph は Globalnet によって割り当てられたグローバル IP を認識しなかったため、Globalnet を使用して重複するサービス CIDR を持つクラスター間で Disaster Recovery ソリューションを設定できませんでした。この問題は修正され、サービス CIDR が重複した場合に Disaster Recovery ソリューションが機能するようになりました。
ワークロードをピアクラスターにフェイルオーバーまたは再配置すると、フェイルオーバーまたは再配置元のクラスターがクリーンアップされるまで、
PeerReady
条件がtrue
に設定されなくなりました以前のリリースでは、障害復旧 (DR) アクションを開始した後、ワークロードがピアクラスターにフェイルオーバーまたは再配置される間、
PeerReady
条件は最初にtrue
に設定されました。その後、フェイルオーバーまたは再配置元のクラスターは、今後のアクションのためにクリーンアップされるまで、false
に設定されていました。アクションを実行するためにDRPlacementControl
ステータス条件を見ているユーザーは、この中間的なPeerReady
状態を見て、ピアの準備ができていると認識し、アクションを実行する可能性がありました。このような場合は、操作が保留または失敗し、回復するにはユーザーの介入が必要になる可能性があります。今回の修正により、クラスターがクリーンアップされるまで、失敗したワークロードまたは再配置されたワークロードで
PeerReady
状態がtrue
に設定されなくなり、ユーザーが混乱しなくてすみます。
災害後に ACM ハブが回復されたときに、アプリケーションがクリーンアップ状態に留まらなくなりました
以前のリリースでは、災害時に ACM ハブが失われ、バックアップを使用して復元された場合、VRG ManifestWork および DRPC ステータスは復元されませんでした。これにより、アプリケーションはクリーンアップ状態のままになりました。
今回の修正により、Ramen は VRG ManifestWork が ACM バックアップの一部であることを確認し、ハブの回復後に DRPC ステータスが空の場合に DRPC ステータスを再構築して、アプリケーションがフェイルオーバークラスターに正常に移行するようになりました。
STS ベースのアプリケーションを期待どおりに再配置できるようになりました
以前のリリースでは、STS ベースのアプリケーションの再配置は、根本的なバグにより失敗していました。このバグは修正され、STS ベースのアプリケーションの再配置が期待どおりに機能するようになりました。
ハブ復旧後に Ramen が想定どおりに調整されます
以前のリリースでは、アクティブ/パッシブのハブ Metro-DR 設定を使用している場合、Ramen リコンサイラーが許容されるレート制限パラメーターを超えた後に実行を停止するという状況が発生することがまれにありました。調整は各ワークロードに固有であるため、そのワークロードのみが影響を受けました。このような場合、Ramen Pod が再起動するまで、そのワークロードに関連するすべての障害復旧オーケストレーションアクティビティーが停止していました。
この問題は修正され、Ramen はハブの復元後に想定どおりに調整されるようになりました。
ハブの回復中に管理対象リソースが削除されなくなりました
以前は、ハブのリカバリー中に、OpenShift Data Foundation で Red Hat Advanced Cluster Management バージョン 2.7.4 (またはそれ以降) の既知の問題が発生し、サブスクリプションベースのワークロードに関連付けられた特定のマネージドリソースが意図せず削除される可能性がありました。
この問題は修正されており、ハブの回復中に管理リソースは削除されなくなりました。
6.1.1. DR アップグレード
このセクションでは、障害復旧環境での Red Hat OpenShift Data Foundation のバージョン 4.13 から 4.14 へのアップグレードに関連するバグについて説明します。
アップグレード前に存在していたワークロードのフェイルオーバーまたは再配置がブロックされなくなりました
以前のリリースでは、アップグレード前に存在していたワークロードのフェイルオーバーまたは再配置がブロックされていました。これは、OpenShift Data Foundation Disaster Recovery ソリューションが永続ボリューム (PV) データに加えて永続ボリューム要求 (PVC) データを保護し、ワークロードに PVC データがバックアップされていなかったためです。
今回の修正により、アップグレード前に存在していたワークロードのフェイルオーバーまたは再配置がブロックされなくなりました。
DRPC では不正な値がキャッシュされなくなりました
以前のリリースでは、OpenShift Data Foundation がアップグレードされたときに、障害復旧配置制御 (DRPC) の
status.preferredDecision.ClusterNamespace
に誤った値がキャッシュされていた可能性がありました。この問題は修正され、誤った値はキャッシュされなくなりました。