7.2. Troubleshooting Operator 的问题

PDF

Operator 是一种打包、部署和管理 OpenShift Dedicated 应用程序的方法。它可以被看作是软件厂商的工程团队的扩展，可以在 OpenShift Dedicated 监控软件的运行情况，并根据软件的当前状态实时做出决策。Operator 被设计为用来无缝地处理升级过程，并对出现的错误自动进行响应，而且不会采取“捷径”（如跳过软件备份过程来节省时间）。

OpenShift Dedicated 4 包括了一组默认的 Operator，它们是集群正常工作所需的。这些默认 Operator 由 Cluster Version Operator（CVO）管理。

作为集群管理员，您可使用 OpenShift Dedicated Web 控制台或 CLI 安装来自 OperatorHub 的应用程序 Operator。然后，您可将 Operator 订阅至一个或多个命名空间，供集群上的开发人员使用。应用程序 Operator 由 Operator Lifecycle Manager（OLM）进行管理。

如果遇到 Operator 问题，请验证 Operator 订阅状态。检查集群中的 Operator pod 健康状况，并收集 Operator 日志以进行诊断。

7.2.1. operator 订阅状况类型

订阅可报告以下状况类型：

表 7.1. 订阅状况类型
状况	描述
`CatalogSourcesUnhealthy`	用于解析的一个或多个目录源不健康。
`InstallPlanMissing`	缺少订阅的安装计划。
`InstallPlanPending`	订阅的安装计划正在安装中。
`InstallPlanFailed`	订阅的安装计划失败。
`ResolutionFailed`	订阅的依赖项解析失败。

注意

默认 OpenShift Dedicated 集群 Operator 由 Cluster Version Operator（CVO）管理，它们没有 Subscription 对象。应用程序 Operator 由 Operator Lifecycle Manager（OLM）管理，它们具有 Subscription 对象。

其他资源

7.2.2. 使用 CLI 查看 Operator 订阅状态

您可以使用 CLI 查看 Operator 订阅状态。

先决条件

您可以使用具有 dedicated-admin 角色的用户访问集群。
已安装 OpenShift CLI(oc)。

流程

列出 Operator 订阅：
```
$ oc get subs -n <operator_namespace>
```

使用 oc describe 命令检查 Subscription 资源：

$ oc describe sub <subscription_name> -n <operator_namespace>

在命令输出中，找到 Operator 订阅状况类型的 Conditions 部分。在以下示例中，CatalogSourcesUnhealthy 条件类型具有 false 状态，因为所有可用目录源都健康：

输出示例

Name:         cluster-logging
Namespace:    openshift-logging
Labels:       operators.coreos.com/cluster-logging.openshift-logging=
Annotations:  <none>
API Version:  operators.coreos.com/v1alpha1
Kind:         Subscription
# ...
Conditions:
   Last Transition Time:  2019-07-29T13:42:57Z
   Message:               all available catalogsources are healthy
   Reason:                AllCatalogSourcesHealthy
   Status:                False
   Type:                  CatalogSourcesUnhealthy
# ...

注意

7.2.3. 使用 CLI 查看 Operator 目录源状态

您可以使用 CLI 查看 Operator 目录源的状态。

先决条件

您可以使用具有 dedicated-admin 角色的用户访问集群。
已安装 OpenShift CLI(oc)。

流程

列出命名空间中的目录源。例如，您可以检查 openshift-marketplace 命名空间，该命名空间用于集群范围的目录源：

$ oc get catalogsources -n openshift-marketplace

输出示例

NAME                  DISPLAY               TYPE   PUBLISHER   AGE
certified-operators   Certified Operators   grpc   Red Hat     55m
community-operators   Community Operators   grpc   Red Hat     55m
example-catalog       Example Catalog       grpc   Example Org 2m25s
redhat-marketplace    Red Hat Marketplace   grpc   Red Hat     55m
redhat-operators      Red Hat Operators     grpc   Red Hat     55m

使用 oc describe 命令获取有关目录源的详情和状态：

$ oc describe catalogsource example-catalog -n openshift-marketplace

输出示例

Name:         example-catalog
Namespace:    openshift-marketplace
Labels:       <none>
Annotations:  operatorframework.io/managed-by: marketplace-operator
              target.workload.openshift.io/management: {"effect": "PreferredDuringScheduling"}
API Version:  operators.coreos.com/v1alpha1
Kind:         CatalogSource
# ...
Status:
  Connection State:
    Address:              example-catalog.openshift-marketplace.svc:50051
    Last Connect:         2021-09-09T17:07:35Z
    Last Observed State:  TRANSIENT_FAILURE
  Registry Service:
    Created At:         2021-09-09T17:05:45Z
    Port:               50051
    Protocol:           grpc
    Service Name:       example-catalog
    Service Namespace:  openshift-marketplace
# ...

在上例的输出中，最后观察到的状态是 TRANSIENT_FAILURE。此状态表示目录源建立连接时出现问题。

列出创建目录源的命名空间中的 pod：

$ oc get pods -n openshift-marketplace

输出示例

NAME                                    READY   STATUS             RESTARTS   AGE
certified-operators-cv9nn               1/1     Running            0          36m
community-operators-6v8lp               1/1     Running            0          36m
marketplace-operator-86bfc75f9b-jkgbc   1/1     Running            0          42m
example-catalog-bwt8z                   0/1     ImagePullBackOff   0          3m55s
redhat-marketplace-57p8c                1/1     Running            0          36m
redhat-operators-smxx8                  1/1     Running            0          36m

在命名空间中创建目录源时，会在该命名空间中为目录源创建一个 pod。在前面的示例中，example-catalog-bwt8z pod 的状态是 ImagePullBackOff。此状态表示拉取目录源的索引镜像存在问题。

使用 oc describe 命令检查 pod 以获取更多详细信息：

$ oc describe pod example-catalog-bwt8z -n openshift-marketplace

输出示例

Name:         example-catalog-bwt8z
Namespace:    openshift-marketplace
Priority:     0
Node:         ci-ln-jyryyg2-f76d1-ggdbq-worker-b-vsxjd/10.0.128.2
...
Events:
  Type     Reason          Age                From               Message
  ----     ------          ----               ----               -------
  Normal   Scheduled       48s                default-scheduler  Successfully assigned openshift-marketplace/example-catalog-bwt8z to ci-ln-jyryyf2-f76d1-fgdbq-worker-b-vsxjd
  Normal   AddedInterface  47s                multus             Add eth0 [10.131.0.40/23] from openshift-sdn
  Normal   BackOff         20s (x2 over 46s)  kubelet            Back-off pulling image "quay.io/example-org/example-catalog:v1"
  Warning  Failed          20s (x2 over 46s)  kubelet            Error: ImagePullBackOff
  Normal   Pulling         8s (x3 over 47s)   kubelet            Pulling image "quay.io/example-org/example-catalog:v1"
  Warning  Failed          8s (x3 over 47s)   kubelet            Failed to pull image "quay.io/example-org/example-catalog:v1": rpc error: code = Unknown desc = reading manifest v1 in quay.io/example-org/example-catalog: unauthorized: access to the requested resource is not authorized
  Warning  Failed          8s (x3 over 47s)   kubelet            Error: ErrImagePull

在前面的示例输出中，错误消息表示目录源的索引镜像因为授权问题而无法成功拉取。例如，索引镜像可能存储在需要登录凭证的 registry 中。

其他资源

gRPC 文档：连接状态

7.2.4. 查询 Operator pod 状态

您可以列出集群中的 Operator pod 及其状态。您还可以收集详细的 Operator pod 概述。

先决条件

您可以使用具有 dedicated-admin 角色的用户访问集群。
API 服务仍然可以正常工作。
已安装 OpenShift CLI（oc）。

流程

列出集群中运行的 Operator。输出包括 Operator 版本、可用性和运行时间信息：
```
$ oc get clusteroperators
```
列出在 Operator 命名空间中运行的 Operator pod，以及 pod 状态、重启和年龄：
```
$ oc get pod -n <operator_namespace>
```

输出详细的 Operator pod 概述：

$ oc describe pod <operator_pod_name> -n <operator_namespace>

7.2.5. 收集 Operator 日志

如果遇到 Operator 问题，您可以从 Operator pod 日志中收集详细诊断信息。

先决条件

您可以使用具有 dedicated-admin 角色的用户访问集群。
API 服务仍然可以正常工作。
已安装 OpenShift CLI(oc)。
您有 control plane 或 control plane 机器的完全限定域名。

流程

列出在 Operator 命名空间中运行的 Operator pod，以及 pod 状态、重启和年龄：
```
$ oc get pods -n <operator_namespace>
```
检查 Operator pod 的日志：
```
$ oc logs pod/<pod_name> -n <operator_namespace>
```
如果 Operator pod 具有多个容器，则上述命令将会产生一个错误，其中包含每个容器的名称。从独立容器查询日志：
```
$ oc logs pod/<operator_pod_name> -c <container_name> -n <operator_namespace>
```
如果 API 无法正常工作，请使用 SSH 来查看每个 control plane 节点上的 Operator pod 和容器日志。将 <master-node>.<cluster_name>.<base_domain> 替换为适当的值。
1. 列出每个 control plane 节点上的 pod：
```
$ ssh core@<master-node>.<cluster_name>.<base_domain> sudo crictl pods
```
2. 对于任何未显示 Ready 状态的 Operator pod，详细检查 Pod 的状态。将 <operator_pod_id> 替换为上一命令输出中列出的 Operator pod ID:
```
$ ssh core@<master-node>.<cluster_name>.<base_domain> sudo crictl inspectp <operator_pod_id>
```
3. 列出与 Operator pod 相关的容器：
```
$ ssh core@<master-node>.<cluster_name>.<base_domain> sudo crictl ps --pod=<operator_pod_id>
```
4. 对于任何未显示 Ready 状态的 Operator 容器，请详细检查容器的状态。将 <container_id> 替换为上一命令输出中列出的容器 ID:
```
$ ssh core@<master-node>.<cluster_name>.<base_domain> sudo crictl inspect <container_id>
```
5. 检查任何未显示 Ready 状态的 Operator 容器的日志。将 <container_id> 替换为上一命令输出中列出的容器 ID:
```
$ ssh core@<master-node>.<cluster_name>.<base_domain> sudo crictl logs -f <container_id>
```
  注意
  运行 Red Hat Enterprise Linux CoreOS (RHCOS) 的 OpenShift Dedicated 4 集群节点不可变，它依赖于 Operator 来应用集群更改。不建议使用 SSH 访问集群节点。在尝试通过 SSH 收集诊断数据前，请运行 oc adm must gather 和其他 oc 命令看它们是否可以提供足够的数据。但是，如果 OpenShift Dedicated API 不可用，或 kubelet 在目标节点上无法正常工作, oc 操作将会受到影响。在这种情况下,可以使用 ssh core@<node>.<cluster_name>.<base_domain> 来访问节点。

7.2. Troubleshooting Operator 的问题

7.2.1. operator 订阅状况类型

7.2.2. 使用 CLI 查看 Operator 订阅状态

7.2.3. 使用 CLI 查看 Operator 目录源状态

7.2.4. 查询 Operator pod 状态

7.2.5. 收集 Operator 日志

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links