7.3. CRI-O コンテナーランタイムの問題のトラブルシューティング
7.3.1. CRI-O コンテナーランタイムエンジンについて
CRI-O は Kubernetes ネイティブコンテナーエンジン実装です。これはオペレーティングシステムに密接に統合し、Kubernetes の効率的で最適化されたエクスペリエンスを提供します。CRI-O コンテナーエンジンは、各 OpenShift Container Platform クラスターノードで systemd サービスとして実行されます。
コンテナーランタイムの問題が発生する場合は、各ノードの crio
systemd サービスのステータスを確認します。コンテナーのランタイムに問題があるノードから CRI-O journald ユニットログを収集します。
7.3.2. CRI-O ランタイムエンジンのステータスの確認
各クラスターノードで CRI-O コンテナーランタイムエンジンのステータスを確認できます。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。
手順
デバッグ Pod 内で、ノードの
crio
systemd サービスをクエリーして CRI-O ステータスを確認します。ノードのデバッグ Pod を起動します。
oc debug node/my-node
$ oc debug node/my-node
Copy to Clipboard Copied! /host
をデバッグシェル内の root ディレクトリーとして設定します。デバッグ Pod は、Pod 内の/host
にホストの root ファイルシステムをマウントします。root ディレクトリーを/host
に変更すると、ホストの実行パスに含まれるバイナリーを実行できます。chroot /host
# chroot /host
Copy to Clipboard Copied! 注記Red Hat Enterprise Linux CoreOS (RHCOS) を実行する OpenShift Container Platform 4.12 クラスターノードは変更できず、Operator を使用してクラスターの変更を適用します。SSH を使用したクラスターノードへのアクセスは推奨されません。ただし、OpenShift Container Platform API が利用できない場合や、kubelet がターゲットノードで適切に機能しない場合、
oc
操作がその影響を受けます。この場合は、代わりにssh core@<node>.<cluster_name>.<base_domain>
を使用してノードにアクセスできます。crio
systemd サービスがノードでアクティブかどうかを確認します。systemctl is-active crio
# systemctl is-active crio
Copy to Clipboard Copied! より詳細な
crio.service
ステータスの要約を出力します。systemctl status crio.service
# systemctl status crio.service
Copy to Clipboard Copied!
7.3.3. CRI-O の journald ユニットログの収集
CRI-O の問題が発生した場合には、ノードから CRI-O journald ユニットログを取得できます。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 - API サービスが機能している。
-
OpenShift CLI (
oc
) がインストールされている。 - コントロールプレーンまたはコントロールプレーンマシンの完全修飾ドメイン名がある。
手順
CRI-O journald ユニットログを収集します。以下の例は、クラスター内のすべてのコントロールプレーンノードからログを収集します。
oc adm node-logs --role=master -u crio
$ oc adm node-logs --role=master -u crio
Copy to Clipboard Copied! 特定のノードから CRI-O journald ユニットログを収集します。
oc adm node-logs <node_name> -u crio
$ oc adm node-logs <node_name> -u crio
Copy to Clipboard Copied! API が機能しない場合は、代わりに SSH を使用してログを確認します。
<node>.<cluster_name>.<base_domain>
を適切な値に置き換えます。ssh core@<node>.<cluster_name>.<base_domain> journalctl -b -f -u crio.service
$ ssh core@<node>.<cluster_name>.<base_domain> journalctl -b -f -u crio.service
Copy to Clipboard Copied! 注記Red Hat Enterprise Linux CoreOS (RHCOS) を実行する OpenShift Container Platform 4.12 クラスターノードは変更できず、Operator を使用してクラスターの変更を適用します。SSH を使用したクラスターノードへのアクセスは推奨されません。SSH 経由で診断データの収集を試行する前に、
oc adm must gather
およびその他のoc
コマンドを実行して収集されるデータが十分であるかどうかを確認してください。ただし、OpenShift Container Platform API が利用できない場合や、kubelet がターゲットノードで適切に機能しない場合、oc
操作がその影響を受けます。この場合は、代わりにssh core@<node>.<cluster_name>.<base_domain>
を使用してノードにアクセスできます。
7.3.4. CRI-O ストレージの消去
以下の問題が発生した場合、CRI-O の一時ストレージを手動でクリアすることができます。
ノードがどの Pod でも実行できず、このエラーが表示される。
Failed to create pod sandbox: rpc error: code = Unknown desc = failed to mount container XXX: error recreating the missing symlinks: error reading name of symlink for XXX: open /var/lib/containers/storage/overlay/XXX/link: no such file or directory
Failed to create pod sandbox: rpc error: code = Unknown desc = failed to mount container XXX: error recreating the missing symlinks: error reading name of symlink for XXX: open /var/lib/containers/storage/overlay/XXX/link: no such file or directory
Copy to Clipboard Copied! 作業ノードに新しいコンテナーを作成することができず、“can’t stat lower layer” というエラーが表示される。
can't stat lower layer ... because it does not exist. Going through storage to recreate the missing symlinks.
can't stat lower layer ... because it does not exist. Going through storage to recreate the missing symlinks.
Copy to Clipboard Copied! -
クラスターをアップグレードした後、またはノードを再起動しようとすると、ノードが
NotReady
状態になる。 -
コンテナーランタイム実装
(crio
) が正しく動作していない。 -
コンテナーランタイムインスタンス
(crio
) が動作していないため、oc debug node/<node_name>
を使用してノード上でデバッグシェルを開始できまない。
この手順で、CRI-O のストレージを完全に消去し、エラーを解消してください。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。
手順
ノードで
cordon
を使用します。これは、ノードがReady
状態になった場合に、ワークロードがスケジューリングされるのを防ぐためです。Status セクションにSchedulingDisabled
と表示されていれば、スケジューリングが無効になっていることがわかります。oc adm cordon <node_name>
$ oc adm cordon <node_name>
Copy to Clipboard Copied! cluster-admin ユーザーとして、ノードをドレインします。
oc adm drain <node_name> --ignore-daemonsets --delete-emptydir-data
$ oc adm drain <node_name> --ignore-daemonsets --delete-emptydir-data
Copy to Clipboard Copied! 注記Pod または Pod テンプレートの
terminateGracePeriodSeconds
属性は、正常な終了期間を制御します。この属性のデフォルトは 30 秒ですが、必要に応じてアプリケーションごとにカスタマイズできます。90 秒を超えて設定すると、Pod がSIGKILLed
とマークされ、正常に終了しない可能性があります。ノードが戻ってきたら、SSH またはコンソールでノードに接続し直します。その後、root ユーザーで接続します。
ssh core@node1.example.com sudo -i
$ ssh core@node1.example.com $ sudo -i
Copy to Clipboard Copied! kubelet を手動で停止します。
systemctl stop kubelet
# systemctl stop kubelet
Copy to Clipboard Copied! コンテナーや Pod を停止します。
以下のコマンドを使用して、
HostNetwork
にない Pod を停止します。これらが削除されるかどうかは、HostNetwork
にあるネットワークプラグイン Pod に左右されるので、先に削除する必要があります。.. for pod in $(crictl pods -q); do if [[ "$(crictl inspectp $pod | jq -r .status.linux.namespaces.options.network)" != "NODE" ]]; then crictl rmp -f $pod; fi; done
.. for pod in $(crictl pods -q); do if [[ "$(crictl inspectp $pod | jq -r .status.linux.namespaces.options.network)" != "NODE" ]]; then crictl rmp -f $pod; fi; done
Copy to Clipboard Copied! 他のすべての Pod を停止します。
crictl rmp -fa
# crictl rmp -fa
Copy to Clipboard Copied!
crio のサービスを手動で停止します。
systemctl stop crio
# systemctl stop crio
Copy to Clipboard Copied! これらのコマンドを実行すると、一時ストレージを完全に消去することができます。
crio wipe -f
# crio wipe -f
Copy to Clipboard Copied! crio および kubelet サービスを起動します。
systemctl start crio systemctl start kubelet
# systemctl start crio # systemctl start kubelet
Copy to Clipboard Copied! crio および kubelet サービスが起動しており、ノードが
Ready
のステータスになっている場合には、クリーンアップが正常に機能したことが分かります。oc get nodes
$ oc get nodes
Copy to Clipboard Copied! 出力例
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready, SchedulingDisabled master 133m v1.25.0
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready, SchedulingDisabled master 133m v1.25.0
Copy to Clipboard Copied! ノードをスケジューリング可能な状態にします。スケジューリングが有効になったことは、
SchedulingDisabled
のステータスがなくなったときにわかります。oc adm uncordon <node_name>
$ oc adm uncordon <node_name>
Copy to Clipboard Copied! 出力例
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready master 133m v1.25.0
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready master 133m v1.25.0
Copy to Clipboard Copied!