第 9 章 托管 control plane 故障排除
如果您在托管 control plane 时遇到问题,请参阅以下信息来引导您完成故障排除。
9.1. 收集信息以对托管 control plane 进行故障排除
当需要对托管 control plane 集群问题进行故障排除时,您可以通过运行 must-gather
命令来收集信息。该命令为管理集群和托管集群生成输出。
管理集群的输出包含以下内容:
- 集群范围的资源:这些资源是管理集群的节点定义。
-
hypershift-dump
压缩文件: 如果您需要与其他人员共享内容,该文件非常有用。 - 命名空间资源:这些资源包括来自相关命名空间中的所有对象,如配置映射、服务、事件和日志。
- 网络日志:这些日志包括 OVN 北向和南向数据库和每个数据库的状态。
- 托管的集群:此级别的输出涉及托管集群内的所有资源。
托管集群的输出包含以下内容:
- 集群范围的资源:这些资源包含所有集群范围的对象,如节点和 CRD。
- 命名空间资源:这些资源包括来自相关命名空间中的所有对象,如配置映射、服务、事件和日志。
虽然输出不包含集群中的任何 secret 对象,但它可以包含对 secret 名称的引用。
先决条件
-
您必须具有对管理集群的
cluster-admin
访问权限。 -
您需要
HostedCluster
资源的name
值以及部署 CR 的命名空间。 -
已安装
hcp
命令行界面。如需更多信息,请参阅安装托管的 control plane 命令行界面。 -
已安装 OpenShift CLI (
oc
)。 -
您必须确保
kubeconfig
文件已被加载,并指向管理集群。
流程
要收集故障排除的输出,请输入以下命令:
$ oc adm must-gather --image=registry.redhat.io/multicluster-engine/must-gather-rhel9:v<mce_version> \ /usr/bin/gather hosted-cluster-namespace=HOSTEDCLUSTERNAMESPACE hosted-cluster-name=HOSTEDCLUSTERNAME \ --dest-dir=NAME ; tar -cvzf NAME.tgz NAME
其中:
-
您可以将 <
mce_version
> 替换为您使用的多集群引擎 Operator 版本,例如2.4
。 -
hosted-cluster-namespace=HOSTEDCLUSTERNAMESPACE
参数是可选的。如果没有包括它,命令会像托管集群一样在默认命名空间(clusters
)中运行。 -
--dest-dir=NAME
参数是可选的。如果要将命令结果保存到压缩文件,请将NAME
替换为您要保存结果的目录的名称。
-
您可以将 <