第 2 章 集群故障排除
要开始对 MicroShift 集群进行故障排除,首先访问集群状态。
2.1. 检查集群的状态
您可以检查 MicroShift 集群的状态,或查看活跃的 pod。以下流程中给出有三个不同的命令,可用于检查集群状态。您可以选择运行一个、两个或所有命令,以帮助您获取对集群进行故障排除所需的信息。
流程
运行以下命令,检查返回集群状态的系统状态:
$ sudo systemctl status microshift
如果 MicroShift 无法启动,这个命令会返回上一个运行的日志。
健康输出示例
● microshift.service - MicroShift Loaded: loaded (/usr/lib/systemd/system/microshift.service; enabled; preset: disabled) Active: active (running) since <day> <date> 12:39:06 UTC; 47min ago Main PID: 20926 (microshift) Tasks: 14 (limit: 48063) Memory: 542.9M CPU: 2min 41.185s CGroup: /system.slice/microshift.service └─20926 microshift run <Month-Day> 13:23:06 i-06166fbb376f14a8b.<hostname> microshift[20926]: kube-apiserver I0528 13:23:06.876001 20926 controll> <Month-Day> 13:23:06 i-06166fbb376f14a8b.<hostname> microshift[20926]: kube-apiserver I0528 13:23:06.876574 20926 controll> # ...
可选:运行以下命令来获取全面的日志:
$ sudo journalctl -u microshift
注意systemd
日志服务的默认配置会将数据存储在易失性目录中。要在系统重启后保留系统日志,请启用日志持久性并为最大日志数据大小设置限制。可选:如果 MicroShift 正在运行,请输入以下命令检查活跃 pod 的状态:
$ oc get pods -A
输出示例
NAMESPACE NAME READY STATUS RESTARTS AGE default i-06166fbb376f14a8bus-west-2computeinternal-debug-qtwcr 1/1 Running 0 46m kube-system csi-snapshot-controller-5c6586d546-lprv4 1/1 Running 0 51m kube-system csi-snapshot-webhook-6bf8ddc7f5-kz6k9 1/1 Running 0 51m openshift-dns dns-default-45jl7 2/2 Running 0 50m openshift-dns node-resolver-7wmzf 1/1 Running 0 51m openshift-ingress router-default-78b86fbf9d-qvj9s 1/1 Running 0 51m openshift-ovn-kubernetes ovnkube-master-5rfhh 4/4 Running 0 51m openshift-ovn-kubernetes ovnkube-node-gcnt6 1/1 Running 0 51m openshift-service-ca service-ca-bf5b7c9f8-pn6rk 1/1 Running 0 51m openshift-storage topolvm-controller-549f7fbdd5-7vrmv 5/5 Running 0 51m openshift-storage topolvm-node-rht2m 3/3 Running 0 50m
注意这个示例输出显示基本的 MicroShift。如果您安装了可选的 RPM,则您的输出中也会显示运行这些服务的 pod 状态。