3.2. 重启集群


您可以在集群被安全关闭后重启它。

先决条件

  • 您可以使用具有 cluster-admin 角色的用户访问集群。
  • 此流程假设您安全关闭集群。

流程

  1. 打开 control plane 节点。

    • 如果您在集群安装中使用 admin.kubeconfig,且 API 虚拟 IP 地址(VIP)为 up,请完成以下步骤:

      1. KUBECONFIG 环境变量设置为 admin.kubeconfig 路径。
      2. 对于集群中的每个 control plane 节点,运行以下命令:

        $ oc adm uncordon <node>
        Copy to Clipboard Toggle word wrap
    • 如果您无法访问 admin.kubeconfig 凭证,请完成以下步骤:

      1. 使用 SSH 连接到 control plane 节点。
      2. localhost-recovery.kubeconfig 文件复制到 /root 目录中。
      3. 使用该文件为集群中的每个 control plane 节点运行以下命令:

        $ oc adm uncordon <node>
        Copy to Clipboard Toggle word wrap
  2. 启动所有依赖设备,如外部存储或 LDAP 服务器。
  3. 启动所有集群机器。

    使用适合您的云环境的方法启动机器,例如从云供应商的 Web 控制台启动机器。

    等待大约 10 分钟,然后继续检查 control plane 节点的状态。

  4. 验证所有 control plane 节点都已就绪。

    $ oc get nodes -l node-role.kubernetes.io/master
    Copy to Clipboard Toggle word wrap

    如果状态为 Ready,如以下输出中所示,则代表 control plane 节点已就绪:

    NAME                           STATUS   ROLES                  AGE   VERSION
    ip-10-0-168-251.ec2.internal   Ready    control-plane,master   75m   v1.29.4
    ip-10-0-170-223.ec2.internal   Ready    control-plane,master   75m   v1.29.4
    ip-10-0-211-16.ec2.internal    Ready    control-plane,master   75m   v1.29.4
    Copy to Clipboard Toggle word wrap
  5. 如果 control plane 节点没有就绪,请检查是否有待批准的证书签名请求 (CSR)。

    1. 获取当前 CSR 列表:

      $ oc get csr
      Copy to Clipboard Toggle word wrap
    2. 查看一个 CSR 的详细信息以验证其是否有效:

      $ oc describe csr <csr_name> 
      1
      Copy to Clipboard Toggle word wrap
      1
      <csr_name> 是当前 CSR 列表中 CSR 的名称。
    3. 批准每个有效的 CSR:

      $ oc adm certificate approve <csr_name>
      Copy to Clipboard Toggle word wrap
  6. 在 control plane 节点就绪后,验证所有 worker 节点是否已就绪。

    $ oc get nodes -l node-role.kubernetes.io/worker
    Copy to Clipboard Toggle word wrap

    如果状态为 Ready,如下所示,则代表 worker 节点已就绪:

    NAME                           STATUS   ROLES    AGE   VERSION
    ip-10-0-179-95.ec2.internal    Ready    worker   64m   v1.29.4
    ip-10-0-182-134.ec2.internal   Ready    worker   64m   v1.29.4
    ip-10-0-250-100.ec2.internal   Ready    worker   64m   v1.29.4
    Copy to Clipboard Toggle word wrap
  7. 如果 worker 节点 就绪,请检查是否有待批准的证书签名请求(CSR)。

    1. 获取当前 CSR 列表:

      $ oc get csr
      Copy to Clipboard Toggle word wrap
    2. 查看一个 CSR 的详细信息以验证其是否有效:

      $ oc describe csr <csr_name> 
      1
      Copy to Clipboard Toggle word wrap
      1
      <csr_name> 是当前 CSR 列表中 CSR 的名称。
    3. 批准每个有效的 CSR:

      $ oc adm certificate approve <csr_name>
      Copy to Clipboard Toggle word wrap
  8. 在 control plane 和计算节点就绪后,运行以下命令将集群中的所有节点标记为可以调度:

    $ for node in $(oc get nodes -o jsonpath='{.items[*].metadata.name}'); do echo ${node} ; oc adm uncordon ${node} ; done
    Copy to Clipboard Toggle word wrap
  9. 验证集群是否已正确启动。

    1. 检查是否有降级的集群 Operator。

      $ oc get clusteroperators
      Copy to Clipboard Toggle word wrap

      确定没有 DEGRADED 条件为 True 的集群 Operator。

      NAME                                       VERSION   AVAILABLE   PROGRESSING   DEGRADED   SINCE
      authentication                             4.16.0    True        False         False      59m
      cloud-credential                           4.16.0    True        False         False      85m
      cluster-autoscaler                         4.16.0    True        False         False      73m
      config-operator                            4.16.0    True        False         False      73m
      console                                    4.16.0    True        False         False      62m
      csi-snapshot-controller                    4.16.0    True        False         False      66m
      dns                                        4.16.0    True        False         False      76m
      etcd                                       4.16.0    True        False         False      76m
      ...
      Copy to Clipboard Toggle word wrap
    2. 检查所有节点是否处于 Ready 状态:

      $ oc get nodes
      Copy to Clipboard Toggle word wrap

      检查所有节点的状态是否为 Ready

      NAME                           STATUS   ROLES                  AGE   VERSION
      ip-10-0-168-251.ec2.internal   Ready    control-plane,master   82m   v1.29.4
      ip-10-0-170-223.ec2.internal   Ready    control-plane,master   82m   v1.29.4
      ip-10-0-179-95.ec2.internal    Ready    worker                 70m   v1.29.4
      ip-10-0-182-134.ec2.internal   Ready    worker                 70m   v1.29.4
      ip-10-0-211-16.ec2.internal    Ready    control-plane,master   82m   v1.29.4
      ip-10-0-250-100.ec2.internal   Ready    worker                 69m   v1.29.4
      Copy to Clipboard Toggle word wrap

      如果集群无法正确启动,您可能需要使用 etcd 备份来恢复集群。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat