7.3. CRI-O コンテナーランタイムの問題のトラブルシューティング
7.3.1. CRI-O コンテナーランタイムエンジンについて
CRI-O は Kubernetes ネイティブコンテナーエンジン実装です。これはオペレーティングシステムに密接に統合し、Kubernetes の効率的で最適化されたエクスペリエンスを提供します。CRI-O コンテナーエンジンは、各 OpenShift Container Platform クラスターノードで systemd サービスとして実行されます。
コンテナーランタイムの問題が発生する場合は、各ノードの crio
systemd サービスのステータスを確認します。コンテナーのランタイムに問題があるノードから CRI-O journald ユニットログを収集します。
7.3.2. CRI-O ランタイムエンジンのステータスの確認
各クラスターノードで CRI-O コンテナーランタイムエンジンのステータスを確認できます。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。
手順
デバッグ Pod 内で、ノードの
crio
systemd サービスをクエリーして CRI-O ステータスを確認します。ノードのデバッグ Pod を起動します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc debug node/my-node
$ oc debug node/my-node
/host
をデバッグシェル内の root ディレクトリーとして設定します。デバッグ Pod は、Pod 内の/host
にホストの root ファイルシステムをマウントします。root ディレクトリーを/host
に変更すると、ホストの実行パスに含まれるバイナリーを実行できます。Copy to Clipboard Copied! Toggle word wrap Toggle overflow chroot /host
# chroot /host
注記Red Hat Enterprise Linux CoreOS (RHCOS) を実行する OpenShift Container Platform 4.17 クラスターノードは、イミュータブルです。クラスターの変更を適用するには、Operator を使用します。SSH を使用したクラスターノードへのアクセスは推奨されません。ただし、OpenShift Container Platform API が利用できない場合や、kubelet がターゲットノードで適切に機能しない場合、
oc
操作がその影響を受けます。この場合は、代わりにssh core@<node>.<cluster_name>.<base_domain>
を使用してノードにアクセスできます。crio
systemd サービスがノードでアクティブかどうかを確認します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow systemctl is-active crio
# systemctl is-active crio
より詳細な
crio.service
ステータスの要約を出力します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow systemctl status crio.service
# systemctl status crio.service
7.3.3. CRI-O の journald ユニットログの収集
CRI-O の問題が発生した場合には、ノードから CRI-O journald ユニットログを取得できます。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 - API サービスが機能している。
-
OpenShift CLI (
oc
) がインストールされている。 - コントロールプレーンまたはコントロールプレーンマシンの完全修飾ドメイン名がある。
手順
CRI-O journald ユニットログを収集します。以下の例は、クラスター内のすべてのコントロールプレーンノードからログを収集します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc adm node-logs --role=master -u crio
$ oc adm node-logs --role=master -u crio
特定のノードから CRI-O journald ユニットログを収集します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc adm node-logs <node_name> -u crio
$ oc adm node-logs <node_name> -u crio
API が機能しない場合は、代わりに SSH を使用してログを確認します。
<node>.<cluster_name>.<base_domain>
を適切な値に置き換えます。Copy to Clipboard Copied! Toggle word wrap Toggle overflow ssh core@<node>.<cluster_name>.<base_domain> journalctl -b -f -u crio.service
$ ssh core@<node>.<cluster_name>.<base_domain> journalctl -b -f -u crio.service
注記Red Hat Enterprise Linux CoreOS (RHCOS) を実行する OpenShift Container Platform 4.17 クラスターノードは、イミュータブルです。クラスターの変更を適用するには、Operator を使用します。SSH を使用したクラスターノードへのアクセスは推奨されません。SSH 経由で診断データの収集を試行する前に、
oc adm must gather
およびその他のoc
コマンドを実行して収集されるデータが十分であるかどうかを確認してください。ただし、OpenShift Container Platform API が利用できない場合や、kubelet がターゲットノードで適切に機能しない場合、oc
操作がその影響を受けます。この場合は、代わりにssh core@<node>.<cluster_name>.<base_domain>
を使用してノードにアクセスできます。
7.3.4. CRI-O ストレージの消去
以下の問題が発生した場合、CRI-O の一時ストレージを手動でクリアすることができます。
ノードは Pod を実行できず、次のエラーが表示されます。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow Failed to create pod sandbox: rpc error: code = Unknown desc = failed to mount container XXX: error recreating the missing symlinks: error reading name of symlink for XXX: open /var/lib/containers/storage/overlay/XXX/link: no such file or directory
Failed to create pod sandbox: rpc error: code = Unknown desc = failed to mount container XXX: error recreating the missing symlinks: error reading name of symlink for XXX: open /var/lib/containers/storage/overlay/XXX/link: no such file or directory
作業ノードに新しいコンテナーを作成することができず、“can’t stat lower layer” というエラーが表示される。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow can't stat lower layer ... because it does not exist. Going through storage to recreate the missing symlinks.
can't stat lower layer ... because it does not exist. Going through storage to recreate the missing symlinks.
-
クラスターをアップグレードした後、またはノードを再起動しようとすると、ノードが
NotReady
状態になる。 -
コンテナーランタイム実装
(crio
) が正しく動作していない。 -
コンテナーランタイムインスタンス
(crio
) が動作していないため、oc debug node/<node_name>
を使用してノード上でデバッグシェルを開始できまない。
この手順で、CRI-O のストレージを完全に消去し、エラーを解消してください。
前提条件
-
cluster-admin
ロールを持つユーザーとしてクラスターにアクセスできる。 -
OpenShift CLI (
oc
) がインストールされている。
手順
ノードで
cordon
を使用します。これは、ノードがReady
状態になった場合に、ワークロードがスケジューリングされるのを防ぐためです。Status セクションにSchedulingDisabled
と表示されていれば、スケジューリングが無効になっていることがわかります。Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc adm cordon <node_name>
$ oc adm cordon <node_name>
cluster-admin ユーザーとして、ノードをドレインします。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc adm drain <node_name> --ignore-daemonsets --delete-emptydir-data
$ oc adm drain <node_name> --ignore-daemonsets --delete-emptydir-data
注記Pod または Pod テンプレートの
terminateGracePeriodSeconds
属性は、正常な終了期間を制御します。この属性のデフォルトは 30 秒ですが、必要に応じてアプリケーションごとにカスタマイズできます。90 秒を超えて設定すると、Pod がSIGKILLed
とマークされ、正常に終了しない可能性があります。ノードが戻ってきたら、SSH またはコンソールでノードに接続し直します。その後、root ユーザーで接続します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow ssh core@node1.example.com sudo -i
$ ssh core@node1.example.com $ sudo -i
kubelet を手動で停止します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow systemctl stop kubelet
# systemctl stop kubelet
コンテナーや Pod を停止します。
以下のコマンドを使用して、
HostNetwork
にない Pod を停止します。これらが削除されるかどうかは、HostNetwork
にあるネットワークプラグイン Pod に左右されるので、先に削除する必要があります。Copy to Clipboard Copied! Toggle word wrap Toggle overflow .. for pod in $(crictl pods -q); do if [[ "$(crictl inspectp $pod | jq -r .status.linux.namespaces.options.network)" != "NODE" ]]; then crictl rmp -f $pod; fi; done
.. for pod in $(crictl pods -q); do if [[ "$(crictl inspectp $pod | jq -r .status.linux.namespaces.options.network)" != "NODE" ]]; then crictl rmp -f $pod; fi; done
他のすべての Pod を停止します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow crictl rmp -fa
# crictl rmp -fa
crio のサービスを手動で停止します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow systemctl stop crio
# systemctl stop crio
これらのコマンドを実行すると、一時ストレージを完全に消去することができます。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow crio wipe -f
# crio wipe -f
crio および kubelet サービスを起動します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow systemctl start crio systemctl start kubelet
# systemctl start crio # systemctl start kubelet
crio および kubelet サービスが起動しており、ノードが
Ready
のステータスになっている場合には、クリーンアップが正常に機能したことが分かります。Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc get nodes
$ oc get nodes
出力例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready, SchedulingDisabled master 133m v1.30.3
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready, SchedulingDisabled master 133m v1.30.3
ノードをスケジューリング可能な状態にします。スケジューリングが有効になったことは、
SchedulingDisabled
のステータスがなくなったときにわかります。Copy to Clipboard Copied! Toggle word wrap Toggle overflow oc adm uncordon <node_name>
$ oc adm uncordon <node_name>
出力例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready master 133m v1.30.3
NAME STATUS ROLES AGE VERSION ci-ln-tkbxyft-f76d1-nvwhr-master-1 Ready master 133m v1.30.3