Observability（可观察性）

Red Hat OpenShift Serverless 1.35

Observability 功能，包括管理员和开发人员指标、集群日志记录和追踪

Red Hat OpenShift Documentation Team

法律通告

摘要

本文档提供了有关如何监控 Knative 服务性能的详细信息。它还详细介绍了如何在 OpenShift Serverless 中使用 OpenShift Logging 和 OpenShift distributed tracing。

第 1 章管理员指标
复制链接

1.1. Serverless 管理员指标
复制链接

指标 (metrics) 可以让集群管理员监控 OpenShift Serverless 集群组件和工作负载的执行情况。

您可以通过进入到 About monitoring dashboard 来查看 OpenShift Serverless 的不同指标。

1.1.1. 先决条件
复制链接

如需有关为集群启用指标的信息，请参阅 OpenShift Container Platform 文档中有关管理指标的内容。
您可以访问具有集群管理员访问权限的帐户（或针对 OpenShift Dedicated 或 Red Hat OpenShift Service on AWS 的专用管理员访问权限）。

警告

如果使用 mTLS 启用 Service Mesh，则 Knative Serving 的指标会被默认禁用，因为 Service Mesh 会防止 Prometheus 提取指标。

有关解决这个问题的详情，请参阅在使用带有 mTLS 的 Service Mesh 时启用 Knative Serving 指标。

提取指标不会影响 Knative 服务的自动扩展，因为提取请求不会通过激活器。因此，如果没有 pod 正在运行，则不会进行提取。

1.2. Serverless 控制器指标
复制链接

以下指标由实施控制器逻辑的任何组件提供。这些指标显示协调操作的详细信息，以及将协调请求添加到工作队列的工作队列行为。

Expand

指标名称	描述	类型	Tags	单位
`work_queue_depth`	工作队列的深度。	量表	`reconciler`	整数（无单位）
`reconcile_count`	协调操作的数量。	计数	`reconciler`, `success`	整数（无单位）
`reconcile_latency`	协调操作的延迟。	Histogram	`reconciler`, `success`	Milliseconds
`workqueue_adds_total`	由工作队列处理的添加操作总数。	计数	`name`	整数（无单位）
`workqueue_queue_latency_seconds`	在请求之前，项目保留在工作队列中的时长。	Histogram	`name`	秒
`workqueue_retries_total`	工作队列处理的重试总数。	计数	`name`	整数（无单位）
`workqueue_work_duration_seconds`	处理和从工作队列中项目所需的时间。	Histogram	`name`	秒
`workqueue_unfinished_work_seconds`	未完成的工作队列项目的时间长度。	Histogram	`name`	秒
`workqueue_longest_running_processor_seconds`	在处理中的、未完成的工作队列项的最长时间。	Histogram	`name`	秒

1.3. Webhook 指标
复制链接

Webhook 指标报告有关操作的有用信息。例如，如果大量操作失败，这可能表示用户创建的资源出现问题。

Expand

指标名称	描述	类型	Tags	单位
`request_count`	路由到 webhook 的请求数。	计数	`admission_allowed`, `kind_group`, `kind_kind`, `kind_version`, `request_operation`, `resource_group`, `resource_namespace`, `resource_resource`, `resource_version`	整数（无单位）
`request_latencies`	Webhook 请求的响应时间。	Histogram	`admission_allowed`, `kind_group`, `kind_kind`, `kind_version`, `request_operation`, `resource_group`, `resource_namespace`, `resource_resource`, `resource_version`	Milliseconds

1.4. Knative Eventing 指标
复制链接

集群管理员可查看 Knative Eventing 组件的以下指标。

通过聚合 HTTP 代码的指标，事件可以分为两类：成功事件 (2xx) 和失败的事件 (5xx) 。

1.4.1. 代理入口指标
复制链接

您可以使用以下指标调试代理 ingress，请参阅它的执行方式，以及哪些事件由 ingress 组件分配。

Expand

指标名称	描述	类型	Tags	单位
`event_count`	代理接收的事件数。	计数	`broker_name`, `event_type`, `namespace_name`, `response_code`, `response_code_class`, `unique_name`	整数（无单位）
`event_dispatch_latencies`	将事件发送到频道的时间。	Histogram	`broker_name`, `event_type`, `namespace_name`, `response_code`, `response_code_class`, `unique_name`	Milliseconds

1.4.2. 代理过滤指标
复制链接

您可以使用以下指标调试代理过滤器，查看它们的执行方式，以及过滤器正在分配哪些事件。您还可以测量事件的过滤操作的延迟。

Expand

指标名称	描述	类型	Tags	单位
`event_count`	代理接收的事件数。	计数	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `response_code`, `response_code_class`, `trigger_name`, `unique_name`	整数（无单位）
`event_dispatch_latencies`	将事件发送到频道的时间。	Histogram	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `response_code`, `response_code_class`, `trigger_name`, `unique_name`	Milliseconds
`event_processing_latencies`	将事件分配给触发器订阅者前处理事件所需的时间。	Histogram	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `trigger_name`, `unique_name`	Milliseconds

1.4.3. InMemoryChannel 分配程序指标
复制链接

您可以使用以下指标调试 InMemoryChannel 频道，查看它们的运行方式，并查看频道正在分配哪些事件。

Expand

指标名称	描述	类型	Tags	单位
`event_count`	`InMemoryChannel` 频道发送的事件数量。	计数	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `response_code`, `response_code_class`, `trigger_name`, `unique_name`	整数（无单位）
`event_dispatch_latencies`	从 `InMemoryChannel` 频道分配事件的时间。	Histogram	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `response_code`, `response_code_class`, `trigger_name`, `unique_name`	Milliseconds

1.4.4. 事件源指标
复制链接

您可以使用以下指标验证事件是否从事件源发送到连接的事件接收器（sink）。

Expand

指标名称	描述	类型	Tags	单位
`event_count`	事件源发送的事件数。	计数	`broker_name`, `container_name`, `filter_type`, `namespace_name`, `response_code`, `response_code_class`, `trigger_name`, `unique_name`	整数（无单位）
`retry_event_count`	事件源在最初发送失败后发送的重试事件数量。	计数	`event_source`, `event_type`, `name`, `namespace_name`, `resource_group`, `response_code`, `response_code_class`, `response_error`, `response_timeout`	整数（无单位）

1.4.5. Knative Kafka 代理指标
复制链接

您可以使用以下指标调试和视觉化 Kafka 代理的性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-broker-receiver-sm-service", namespace="knative-eventing"}`	代理接收的事件数	计数	`名称` 代理名称 `namespace_name` 代理命名空间 `event_type` 事件类型 `response_code` 代理返回的 HTTP 响应代码 `response_code_class` 代理返回的 HTTP 响应代码类： 2xx、3xx、4xx、5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-broker-receiver-sm-service", namespace="knative-eventing"}`	将事件发送到 Kafka 集群的时间	Histogram	`名称` 代理名称 `namespace_name` 代理命名空间 `event_type` 事件类型 `response_code` 代理返回的 HTTP 响应代码 `response_code_class` 代理返回的 HTTP 响应代码类： 2xx、3xx、4xx、5xx	Milliseconds
`kafka_broker_controller_consumer_group_expected_replicas`	给定 Kafka 消费者组资源的预期副本数	量表	`consumer_name` 资源名称 `namespace_name` 资源命名空间 `consumer_kind` Resource Kind, enum: `KafkaSource`,`Trigger`,`Subscription` 注意在这种情况下，资源指的是面向用户的实体，如 Kafka 源、触发器和订阅。避免使用内部或生成的名称。	无维度
`kafka_broker_controller_consumer_group_ready_replicas`	给定 Kafka 消费者组资源的就绪副本数	量表	`consumer_name` 资源名称 `namespace_name` 资源命名空间 `consumer_kind` Resource Kind, enum: `KafkaSource`,`Trigger`,`Subscription` 注意在这种情况下，资源指的是面向用户的实体，如 Kafka 源、触发器和订阅。避免使用内部或生成的名称。	无维度

1.4.6. Knative Kafka 触发器指标
复制链接

您可以使用以下指标调试和视觉化 Kafka 触发器的性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-broker-dispatcher-sm-service", namespace="knative-eventing"}`	由触发器向订阅者发送的事件数	计数	`consumer_name` 触发器名称 `namespace_name` 触发器命名空间 `名称` 代理名称 `event_type` 事件类型 `response_code` 触发器订阅者服务返回的 HTTP 响应代码 `response_code_class` 由触发器订阅者服务返回的 HTTP 响应代码类： 2xx、3xx、4xx、5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-broker-dispatcher-sm-service", namespace="knative-eventing"}`	将事件发送到订阅者的时间	Histogram	`consumer_name` 触发器名称 `namespace_name` 触发器命名空间 `名称` 代理名称 `event_type` 事件类型 `response_code` 触发器订阅者服务返回的 HTTP 响应代码 `response_code_class` 由触发器订阅者服务返回的 HTTP 响应代码类： 2xx、3xx、4xx、5xx	Milliseconds
`event_processing_latencies_ms_bucket{job="kafka-broker-dispatcher-sm-service", namespace="knative-eventing"}`	处理和过滤事件的时间	Histogram	`consumer_name` 触发器名称 `namespace_name` 触发器命名空间 `名称` 代理名称 `event_type` 事件类型	Milliseconds

1.4.7. Knative Kafka 频道指标
复制链接

您可以使用以下指标调试和视觉化 Kafka 频道的性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-channel-receiver-sm-service", namespace="knative-eventing"}`	Kafka 频道接收的事件数	计数	`名称` Kafka 频道名称 `namespace_name` Kafka 频道命名空间 `event_type` 事件类型 `response_code` Kafka 频道返回的 HTTP 响应代码 `response_code_class` Kafka 频道返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-channel-receiver-sm-service", namespace="knative-eventing"}`	将事件发送到 Kafka 集群的时间	Histogram	`名称` Kafka 频道名称 `namespace_name` Kafka 频道命名空间 `event_type` 事件类型 `response_code` Kafka 频道返回的 HTTP 响应代码 `response_code_class` Kafka 频道返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	Milliseconds

1.4.8. Knative Kafka 订阅指标
复制链接

您可以使用以下指标调试和视觉化与 Kafka 频道关联的订阅性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-channel-dispatcher-sm-service", namespace="knative-eventing"}`	订阅向订阅者发送的事件数	计数	`consumer_name` 订阅名称 `namespace_name` 订阅命名空间 `名称` KafkaChannel 名称 `event_type` 事件类型 `response_code` `订阅` 订阅者服务返回的 HTTP 响应代码 `response_code_class` `Subscription` subscriber 服务返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-channel-dispatcher-sm-service", namespace="knative-eventing"}`	将事件发送到订阅者的时间	Histogram	`consumer_name` 订阅名称 `namespace_name` 订阅命名空间 `名称` KafkaChannel 名称 `event_type` 事件类型 `response_code` `订阅` 订阅者服务返回的 HTTP 响应代码 `response_code_class` `Subscription` subscriber 服务返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	Milliseconds
`event_processing_latencies_ms_bucket{job="kafka-channel-dispatcher-sm-service", namespace="knative-eventing"}`	处理事件所需时间	Histogram	`consumer_name` 订阅名称 `namespace_name` 订阅命名空间 `名称` KafkaChannel 名称 `event_type` 事件类型	无维度

1.4.9. Knative Kafka 源指标
复制链接

您可以使用以下指标调试和视觉化 Kafka 源的性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-source-dispatcher-sm-service", namespace="knative-eventing"}`	Kafka 源发送的事件数	计数	`consumer_name` Kafka 源名称 `namespace_name` Kafka 源命名空间 `名称` Kafka 源名称 `event_type` 事件类型 `response_code` Kafka 源接收器服务返回的 HTTP 响应代码 `response_code_class` Kafka 源接收器服务返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-source-dispatcher-sm-service", namespace="knative-eventing"}`	将事件发送到接收器的时间	Histogram	`consumer_name` Kafka 源名称 `namespace_name` Kafka 源命名空间 `名称` Kafka 源名称 `event_type` 事件类型 `response_code` Kafka 源接收器服务返回的 HTTP 响应代码 `response_code_class` Kafka 源接收器服务返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	Milliseconds
`event_processing_latencies_ms_bucket{job="kafka-source-dispatcher-sm-service", namespace="knative-eventing"}`	处理事件所需时间	Histogram	`consumer_name` Kafka 源名称 `namespace_name` Kafka 源命名空间 `名称` Kafka 源名称 `event_type` 事件类型	Milliseconds
`kafka_broker_controller_consumer_group_expected_replicas`	给定 Kafka 消费者组资源的预期副本数	量表	`consumer_name` 资源名称 `namespace_name` 资源命名空间 `consumer_kind` Resource Kind, enum: `KafkaSource`,`Trigger`,`Subscription` 注意在这种情况下，资源指的是面向用户的实体，如 Kafka 源、trigger 和订阅。避免使用内部或生成的名称。	无维度
`kafka_broker_controller_consumer_group_ready_replicas`	给定 Kafka 消费者组资源的就绪副本数	量表	`consumer_name` 资源名称 `namespace_name` 资源命名空间 `consumer_kind` Resource Kind, enum: `KafkaSource`,`Trigger`,`Subscription` 注意在这种情况下，资源指的是面向用户的实体，如 Kafka 源、trigger 和订阅。避免使用内部或生成的名称。	无维度

1.4.10. Knative Kafka sink 指标
复制链接

您可以使用以下指标调试和视觉化 Kafka sink 的性能。

Expand

指标名称	描述	类型	Tags	单位
`event_count_1_total{job="kafka-sink-receiver-sm-service", namespace="knative-eventing"}`	代理接收的事件数	计数	`名称` Kafka sink 名称 `namespace_name` Kafka sink 命名空间 `event_type` 事件类型 `response_code` Kafka sink 返回的 HTTP 响应代码 `response_code_class` Kafka sink 返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	无维度
`event_dispatch_latencies_ms_bucket{job="kafka-sink-receiver-sm-service", namespace="knative-eventing"}`	将事件发送到 Kafka 集群的时间	Histogram	`名称` Kafka sink 名称 `namespace_name` Kafka sink 命名空间 `event_type` 事件类型 `response_code` Kafka sink 返回的 HTTP 响应代码 `response_code_class` Kafka sink 返回的 HTTP 响应代码类： 2xx, 3xx, 4xx, 5xx	Milliseconds

1.5. Knative Serving 指标
复制链接

集群管理员可查看 Knative Serving 组件的以下指标。

1.5.1. 激活器指标
复制链接

您可以使用以下指标了解应用在流量通过激活器时如何响应。

Expand

指标名称	描述	类型	Tags	单位
`request_concurrency`	路由到激活器的并发请求数，或者报告周期内平均并发请求数。	量表	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `revision_name`, `service_name`	整数（无单位）
`request_count`	要激活的请求数。这些是从活动器处理程序实现的请求。	计数	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`,	整数（无单位）
`request_latencies`	已实现的路由请求的响应时间（毫秒）。	Histogram	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`	Milliseconds

1.5.2. 自动缩放器指标
复制链接

自动缩放器组件会公开多个与每个修订版本自动扩展行为相关的指标。例如，在任何给定时间，您可以监控自动扩展尝试为服务分配的目标 pod 数量，在 stable 窗口中每秒请求平均数量，或者如果您使用 Knative pod 自动缩放器 (KPA) ，自动扩展是否处于 panic 模式。

Expand

指标名称	描述	类型	Tags	单位
`desired_pods`	自动缩放器尝试为服务分配的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`excess_burst_capacity`	过量激增容量在稳定窗口中提供。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`stable_request_concurrency`	每个通过稳定窗口观察到的 pod 的平均请求数。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`panic_request_concurrency`	每个观察到的 pod 的平均请求数通过 panic 窗口。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`target_concurrency_per_pod`	自动缩放器尝试发送到每个容器集的并发请求数。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`stable_requests_per_second`	通过 stable 窗口中每个观察到的 pod 的平均请求数每秒数。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`panic_requests_per_second`	每个通过 panic 窗口观察到的 pod 平均请求数每秒数。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`target_requests_per_second`	自动缩放器针对每个 Pod 的目标请求数。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`panic_mode`	如果自动扩展器处于 panic 模式，则这个值为 `1`，如果自动扩展器没有处于 panic 模式，则代表 `0`。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`requested_pods`	自动缩放器从 Kubernetes 集群请求的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`actual_pods`	分配且当前具有就绪状态的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`not_ready_pods`	处于未就绪状态的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`pending_pods`	当前待处理的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）
`terminating_pods`	当前终止的 pod 数量。	量表	`configuration_name`, `namespace_name`, `revision_name`, `service_name`	整数（无单位）

1.5.3. Go 运行时指标
复制链接

每个 Knative Serving control plane 进程会发出多个 Go 运行时内存统计 (MemStats) 。

注意

每个指标的 name 标签是一个空标签。

Expand

指标名称	描述	类型	Tags	单位
`go_alloc`	分配的堆对象的字节数。这个指标与 `heap_alloc` 相同。	量表	`name`	整数（无单位）
`go_total_alloc`	为堆对象分配的累积字节。	量表	`name`	整数（无单位）
`go_sys`	从操作系统获得的内存总量。	量表	`name`	整数（无单位）
`go_lookups`	运行时执行的指针查找数量。	量表	`name`	整数（无单位）
`go_mallocs`	分配的堆对象的累计数。	量表	`name`	整数（无单位）
`go_frees`	已释放的堆对象的累计数。	量表	`name`	整数（无单位）
`go_heap_alloc`	分配的堆对象的字节数。	量表	`name`	整数（无单位）
`go_heap_sys`	从操作系统获得的堆内存字节数。	量表	`name`	整数（无单位）
`go_heap_idle`	空闲、未使用的字节数。	量表	`name`	整数（无单位）
`go_heap_in_use`	当前正在使用的字节数。	量表	`name`	整数（无单位）
`go_heap_released`	返回到操作系统的物理内存字节数。	量表	`name`	整数（无单位）
`go_heap_objects`	分配的堆对象数量。	量表	`name`	整数（无单位）
`go_stack_in_use`	堆栈中当前正在使用的字节数。	量表	`name`	整数（无单位）
`go_stack_sys`	从操作系统获得的堆栈内存字节数。	量表	`name`	整数（无单位）
`go_mspan_in_use`	分配的 `mspan` 结构的字节数。	量表	`name`	整数（无单位）
`go_mspan_sys`	从操作系统获得的用于 `mspan` 结构的内存字节数。	量表	`name`	整数（无单位）
`go_mcache_in_use`	分配的 `mcache` 结构的字节数。	量表	`name`	整数（无单位）
`go_mcache_sys`	从操作系统获取的用于 `mcache` 结构的内存字节数。	量表	`name`	整数（无单位）
`go_bucket_hash_sys`	分析 bucket 哈希表中的内存字节数。	量表	`name`	整数（无单位）
`go_gc_sys`	垃圾回收元数据中的字节内存数量。	量表	`name`	整数（无单位）
`go_other_sys`	其它非堆运行时分配的内存字节数。	量表	`name`	整数（无单位）
`go_next_gc`	下一个垃圾回收周期的目标堆大小。	量表	`name`	整数（无单位）
`go_last_gc`	最后一次垃圾回收完成的时间（Epoch 或 Unix 时间）。	量表	`name`	Nanoseconds
`go_total_gc_pause_ns`	自程序启动以来，垃圾回收的 stop-the-world 暂停的累积时间。	量表	`name`	Nanoseconds
`go_num_gc`	完成的垃圾回收周期数量。	量表	`name`	整数（无单位）
`go_num_forced_gc`	由于应用调用垃圾回收功能而强制执行的垃圾回收周期数量。	量表	`name`	整数（无单位）
`go_gc_cpu_fraction`	程序启动后，被垃圾收集器使用的程序可用 CPU 时间的比例。	量表	`name`	整数（无单位）

第 2 章开发人员指标
复制链接

2.1. Serverless 开发人员指标概述
复制链接

指标 (metrics) 使开发人员能够监控 Knative 服务的运行情况。您可以使用 OpenShift Container Platform 监控堆栈记录并查看 Knative 服务的健康检查和指标。

您可以通过进入到 About monitoring dashboard 来查看 OpenShift Serverless 的不同指标

警告

如果使用 mTLS 启用 Service Mesh，则 Knative Serving 的指标会被默认禁用，因为 Service Mesh 会防止 Prometheus 提取指标。

有关解决这个问题的详情，请参阅在使用带有 mTLS 的 Service Mesh 时启用 Knative Serving 指标。

提取指标不会影响 Knative 服务的自动扩展，因为提取请求不会通过激活器。因此，如果没有 pod 正在运行，则不会进行提取。

2.2. Knative 服务指标默认公开
复制链接

Expand

表 2.1. 在端口 9091 上为每个 Knative 服务公开的指标
指标名称、单元和类型	描述	指标标签
`request_count` 指标单元：无维度指标类型：计数器	路由到 `queue-proxy` 的请求数。	configuration_name="event-display", container_name="queue-proxy", namespace_name="apiserversource1", pod_name="event-display-00001-deployment-658fd4f9cf-qcnr5", response_code="200", response_code_class="2xx", revision_name="event-display-00001", service_name="event-display"
`request_latencies` 指标单元：毫秒指标类型：togram	以毫秒为单位的响应时间。	configuration_name="event-display", container_name="queue-proxy", namespace_name="apiserversource1", pod_name="event-display-00001-deployment-658fd4f9cf-qcnr5", response_code="200", response_code_class="2xx", revision_name="event-display-00001", service_name="event-display"
`app_request_count` 指标单元：无维度指标类型：计数器	路由到 `user-container` 的请求数。	configuration_name="event-display", container_name="queue-proxy", namespace_name="apiserversource1", pod_name="event-display-00001-deployment-658fd4f9cf-qcnr5", response_code="200", response_code_class="2xx", revision_name="event-display-00001", service_name="event-display"
`app_request_latencies` 指标单元：毫秒指标类型：togram	以毫秒为单位的响应时间。	configuration_name="event-display", container_name="queue-proxy", namespace_name="apiserversource1", pod_name="event-display-00001-deployment-658fd4f9cf-qcnr5", response_code="200", response_code_class="2xx", revision_name="event-display-00001", service_name="event-display"
`queue_depth` 指标单元：无维度指标类型：量表	服务和等待队列中的当前项目数，或者如果无限并发，则不报告。使用 `breaker.inFlight`。	configuration_name="event-display", container_name="queue-proxy", namespace_name="apiserversource1", pod_name="event-display-00001-deployment-658fd4f9cf-qcnr5", response_code="200", response_code_class="2xx", revision_name="event-display-00001", service_name="event-display"

2.3. 带有自定义应用程序指标的 Knative 服务
复制链接

您可以扩展 Knative 服务导出的指标集合。具体的实施取决于您的应用和使用的语言。

以下列表实施了一个 Go 应用示例，它导出处理的事件计数自定义指标。

package main

import (
  "fmt"
  "log"
  "net/http"
  "os"

  "github.com/prometheus/client_golang/prometheus"


  "github.com/prometheus/client_golang/prometheus/promauto"
  "github.com/prometheus/client_golang/prometheus/promhttp"
)

var (
  opsProcessed = promauto.NewCounter(prometheus.CounterOpts{


     Name: "myapp_processed_ops_total",
     Help: "The total number of processed events",
  })
)


func handler(w http.ResponseWriter, r *http.Request) {
  log.Print("helloworld: received a request")
  target := os.Getenv("TARGET")
  if target == "" {
     target = "World"
  }
  fmt.Fprintf(w, "Hello %s!\n", target)
  opsProcessed.Inc()


}

func main() {
  log.Print("helloworld: starting server...")

  port := os.Getenv("PORT")
  if port == "" {
     port = "8080"
  }

  http.HandleFunc("/", handler)

  // Separate server for metrics requests
  go func() {


     mux := http.NewServeMux()
     server := &http.Server{
        Addr: fmt.Sprintf(":%s", "9095"),
        Handler: mux,
     }
     mux.Handle("/metrics", promhttp.Handler())
     log.Printf("prometheus: listening on port %s", 9095)
     log.Fatal(server.ListenAndServe())
  }()

   // Use same port as normal requests for metrics
  //http.Handle("/metrics", promhttp.Handler())


  log.Printf("helloworld: listening on port %s", port)
  log.Fatal(http.ListenAndServe(fmt.Sprintf(":%s", port), nil))
}

1: 包含 Prometheus 软件包。
2: 定义 opsProcessed 指标。
3: 递增 opsProcessed 指标。
4: 将配置为将单独的服务器用于指标请求.
5: 将配置为使用与指标和指标子路径正常请求相同的端口。

2.4. 配置提取自定义指标
复制链接

自定义指标提取由专门用于用户工作负载监控的 Prometheus 实例执行。启用用户工作负载监控并创建应用程序后，您需要一个配置来定义监控堆栈提取指标的方式。

以下示例配置为您的应用程序定义了 ksvc 并配置服务监控器。确切的配置取决于您的应用程序以及它如何导出指标。

apiVersion: serving.knative.dev/v1


kind: Service
metadata:
  name: helloworld-go
spec:
  template:
    metadata:
      labels:
        app: helloworld-go
      annotations:
    spec:
      containers:
      - image: docker.io/skonto/helloworld-go:metrics
        resources:
          requests:
            cpu: "200m"
        env:
        - name: TARGET
          value: "Go Sample v1"
---
apiVersion: monitoring.coreos.com/v1


kind: ServiceMonitor
metadata:
  labels:
  name: helloworld-go-sm
spec:
  endpoints:
  - port: queue-proxy-metrics
    scheme: http
  - port: app-metrics
    scheme: http
  namespaceSelector: {}
  selector:
    matchLabels:
       name:  helloworld-go-sm
---
apiVersion: v1


kind: Service
metadata:
  labels:
    name:  helloworld-go-sm
  name:  helloworld-go-sm
spec:
  ports:
  - name: queue-proxy-metrics
    port: 9091
    protocol: TCP
    targetPort: 9091
  - name: app-metrics
    port: 9095
    protocol: TCP
    targetPort: 9095
  selector:
    serving.knative.dev/service: helloworld-go
  type: ClusterIP

1: 应用程序规格。
2: 配置提取应用程序的指标。
3: 提取指标的方式的配置。

2.5. 检查服务的指标
复制链接

在将应用配置为导出指标和监控堆栈以提取它们后，您可以在 web 控制台中查看指标数据。

先决条件

已登陆到 OpenShift Container Platform Web 控制台。
安装了 OpenShift Serverless Operator 和 Knative Serving。

流程

可选：针对应用程序运行请求，您可以在指标中看到：

$ hello_route=$(oc get ksvc helloworld-go -n ns1 -o jsonpath='{.status.url}') && \
    curl $hello_route

输出示例

Hello Go Sample v1!

在 Web 控制台中，进入 Observe → Metrics 界面。

在输入字段中，输入您要观察到的指标的查询，例如：

revision_app_request_count{namespace="ns1", job="helloworld-go-sm"}

另一个示例：

myapp_processed_ops_total{namespace="ns1", job="helloworld-go-sm"}

观察视觉化的指标：

2.5.1. 队列代理指标
复制链接

每个 Knative 服务都有一个代理容器，用于代理到应用程序容器的连接。报告多个用于队列代理性能的指标。

您可以使用以下指标来测量请求是否排入代理端，并在应用一侧服务请求的实际延迟。

Expand

指标名称	描述	类型	Tags	单位
`revision_request_count`	路由到 `queue-proxy` pod 的请求数。	计数	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`	整数（无单位）
`revision_request_latencies`	修订请求的响应时间。	Histogram	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`	Milliseconds
`revision_app_request_count`	路由到 `user-container` 容器集的请求数。	计数	`configuration_name`, `container_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`	整数（无单位）
`revision_app_request_latencies`	修订应用程序请求的响应时间。	Histogram	`configuration_name`, `namespace_name`, `pod_name`, `response_code`, `response_code_class`, `revision_name`, `service_name`	Milliseconds
`revision_queue_depth`	当前在 `serving` 和 `waiting` 队列中的项的数量。如果配置了无限并发，则不会报告此指标。	量表	`configuration_name`, `event-display`, `container_name`, `namespace_name`, `pod_name`, `response_code_class`, `revision_name`, `service_name`	整数（无单位）

2.6. 服务指标的仪表板
复制链接

您可以使用专用的仪表板来按命名空间聚合队列代理指标，以检查指标。

2.6.1. 在仪表板中检查服务的指标
复制链接

先决条件

已登陆到 OpenShift Container Platform Web 控制台。
安装了 OpenShift Serverless Operator 和 Knative Serving。

流程

在 Web 控制台中，进入 Observe → Metrics 界面。
选择 Knative User Services (Queue Proxy metrics) 仪表板。
选择与应用程序对应的 Namespace 、Configuration 和 Revision。
观察视觉化的指标。

第 3 章集群日志记录
复制链接

3.1. 为 Serving 和 Eventing 配置日志设置
复制链接

您可以使用 KnativeServing 和 KnativeEventing 自定义资源(CR)为 OpenShift Serverless Serving 和 OpenShift Serverless Eventing 配置日志记录。日志记录的级别由指定的 loglevel 值决定。

表 3.1. 支持的日志级别
日志级别	描述
`debug`	细粒度调试
`info`	普通日志记录
`warn`	意外但非关键错误
`错误`	关键错误；正常操作期间出现意外错误
`dpanic`	在 debug 模式中，触发 panic (crash)

3.1.2. 配置日志设置
复制链接

您可以在 KnativeServing 自定义资源(CR)和 KnativeEventing CR 中配置 Serving 和 Eventing 的日志记录。

流程

通过在 KnativeServing 和 KnativeEventing CR 中设置或修改 loglevel 值来配置 Serving 和 Eventing 的日志设置。以下是两个示例配置，所有可能的日志选项都设置为 level info ：

KnativeServing CR

apiVersion: operator.knative.dev/v1beta1
kind: KnativeServing
metadata:
  name: knative-serving
  namespace: knative-serving
spec:
  config:
    logging:
      loglevel.controller: "info"
      loglevel.autoscaler: "info"
      loglevel.queueproxy: "info"
      loglevel.webhook: "info"
      loglevel.activator: "info"
      loglevel.hpaautoscaler: "info"
      loglevel.net-certmanager-controller: "info"
      loglevel.net-istio-controller: "info"
      loglevel.net-kourier-controller: "info"

KnativeEventing CR

apiVersion: operator.knative.dev/v1beta1
kind: KnativeEventing
metadata:
  name: knative-eventing
  namespace: knative-eventing
spec:
  config:
    logging:
      loglevel.controller: "info"
      loglevel.eventing-webhook: "info"
      loglevel.inmemorychannel-dispatcher: "info"
      loglevel.inmemorychannel-webhook: "info"
      loglevel.mt-broker-controller: "info"
      loglevel.mt_broker_filter: "info"
      loglevel.mt_broker_ingress: "info"
      loglevel.pingsource-mt-adapter: "info"

3.1.3. 配置请求日志设置
复制链接

您可以在 KnativeServing 自定义资源(CR)的 observability 字段中为服务配置请求日志记录。

有关配置请求日志记录的可用参数的详情，请参考"请求日志记录参数"。

流程

通过修改 KnativeServing CR 中的 observability 字段来配置服务的请求日志记录：

KnativeServing CR 示例

apiVersion: operator.knative.dev/v1beta1
kind: KnativeServing
metadata:
  name: knative-serving
  namespace: knative-serving
# ...
spec:
  config:
    observability:
        logging.enable-request-log: true
        logging.enable-probe-request-log: true
        logging.request-log-template: '{"httpRequest": {"requestMethod": "{{.Request.Method}}", "requestUrl": "{{js .Request.RequestURI}}", "requestSize": "{{.Request.ContentLength}}", "status": {{.Response.Code}}, "responseSize": "{{.Response.Size}}", "userAgent": "{{js .Request.UserAgent}}", "remoteIp": "{{js .Request.RemoteAddr}}", "serverIp": "{{.Revision.PodIP}}", "referer": "{{js .Request.Referer}}", "latency": "{{.Response.Latency}}s", "protocol": "{{.Request.Proto}}"}, "traceId": "{{index .Request.Header "X-B3-Traceid"}}"}'
# ...

3.1.4. 请求日志记录的参数
复制链接

下表描述了用于配置请求日志记录的参数。

Expand

表 3.2. 请求日志记录配置参数
参数	类型	描述
`logging.enable-request-log`	布尔值(`true` 或 `false`)	设置为 `true` 以启用请求日志记录。
`logging.enable-probe-request-log`	布尔值(`true` 或 `false`)	设置为 `true` 以启用队列代理将探测请求记录到 stdout。它使用 `logging.request-log-template` 中指定的模板。
`logging.request-log-template`	Go `text/template` 字符串	确定请求日志的形成。使用一行以防止将日志分成多个记录。

logging.request-log-template 参数包括以下功能：

request 是一个 http. Request ，代表服务器收到的 HTTP 请求。
response 代表 HTTP 响应，并包括以下字段：
- Code 是 HTTP 状态代码。
- size 是响应的大小，以字节为单位。
- latency 是响应延迟（以秒为单位）。
修订 包含修订详情，并包括以下字段：
- name 是修订版本的名称。
- namespace 是修订版本的命名空间。
- service 是服务的名称。
- configuration 是 配置 的名称。
- pod name 是托管该修订版本的 pod 的名称。
- podIP 是托管 pod 的 IP 地址。

法律通告
复制链接

The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.

Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.

Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.

Linux® is the registered trademark of Linus Torvalds in the United States and other countries.

Java® is a registered trademark of Oracle and/or its affiliates.

XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.

MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.

Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.

The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.

All other trademarks are the property of their respective owners.

Observability（可观察性）

Observability 功能，包括管理员和开发人员指标、集群日志记录和追踪

第 1 章 管理员指标复制链接链接已复制到粘贴板!

1.1. Serverless 管理员指标复制链接链接已复制到粘贴板!

1.1.1. 先决条件复制链接链接已复制到粘贴板!

1.2. Serverless 控制器指标复制链接链接已复制到粘贴板!

1.3. Webhook 指标复制链接链接已复制到粘贴板!

1.4. Knative Eventing 指标复制链接链接已复制到粘贴板!

1.4.1. 代理入口指标复制链接链接已复制到粘贴板!

1.4.2. 代理过滤指标复制链接链接已复制到粘贴板!

1.4.3. InMemoryChannel 分配程序指标复制链接链接已复制到粘贴板!

1.4.4. 事件源指标复制链接链接已复制到粘贴板!

1.4.5. Knative Kafka 代理指标复制链接链接已复制到粘贴板!

1.4.6. Knative Kafka 触发器指标复制链接链接已复制到粘贴板!

1.4.7. Knative Kafka 频道指标复制链接链接已复制到粘贴板!

1.4.8. Knative Kafka 订阅指标复制链接链接已复制到粘贴板!

1.4.9. Knative Kafka 源指标复制链接链接已复制到粘贴板!

1.4.10. Knative Kafka sink 指标复制链接链接已复制到粘贴板!

1.5. Knative Serving 指标复制链接链接已复制到粘贴板!

1.5.1. 激活器指标复制链接链接已复制到粘贴板!

1.5.2. 自动缩放器指标复制链接链接已复制到粘贴板!

1.5.3. Go 运行时指标复制链接链接已复制到粘贴板!

第 2 章 开发人员指标复制链接链接已复制到粘贴板!

2.1. Serverless 开发人员指标概述复制链接链接已复制到粘贴板!

2.2. Knative 服务指标默认公开复制链接链接已复制到粘贴板!

2.3. 带有自定义应用程序指标的 Knative 服务复制链接链接已复制到粘贴板!

2.4. 配置提取自定义指标复制链接链接已复制到粘贴板!

2.5. 检查服务的指标复制链接链接已复制到粘贴板!

2.5.1. 队列代理指标复制链接链接已复制到粘贴板!

2.6. 服务指标的仪表板复制链接链接已复制到粘贴板!

2.6.1. 在仪表板中检查服务的指标复制链接链接已复制到粘贴板!

第 3 章 集群日志记录复制链接链接已复制到粘贴板!

3.1. 为 Serving 和 Eventing 配置日志设置复制链接链接已复制到粘贴板!

3.1.1. 支持的日志级别复制链接链接已复制到粘贴板!

3.1.2. 配置日志设置复制链接链接已复制到粘贴板!

3.1.3. 配置请求日志设置复制链接链接已复制到粘贴板!

3.1.4. 请求日志记录的参数复制链接链接已复制到粘贴板!

第 4 章 Tracing复制链接链接已复制到粘贴板!

4.1. 跟踪请求复制链接链接已复制到粘贴板!

4.1.1. 分布式追踪概述复制链接链接已复制到粘贴板!

4.2. 使用 Red Hat OpenShift distributed tracing复制链接链接已复制到粘贴板!

4.2.1. 使用 Red Hat OpenShift distributed tracing 启用分布式追踪复制链接链接已复制到粘贴板!

4.3. 使用 Jaeger 分布式追踪复制链接链接已复制到粘贴板!

4.3.1. 配置 Jaeger 以启用分布式追踪复制链接链接已复制到粘贴板!

法律通告复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

關於紅帽

让开源更具包容性

关于红帽文档

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 1 章管理员指标
复制链接

1.1. Serverless 管理员指标
复制链接

1.1.1. 先决条件
复制链接

1.2. Serverless 控制器指标
复制链接

1.3. Webhook 指标
复制链接

1.4. Knative Eventing 指标
复制链接

1.4.1. 代理入口指标
复制链接

1.4.2. 代理过滤指标
复制链接

1.4.3. InMemoryChannel 分配程序指标
复制链接

1.4.4. 事件源指标
复制链接

1.4.5. Knative Kafka 代理指标
复制链接

1.4.6. Knative Kafka 触发器指标
复制链接

1.4.7. Knative Kafka 频道指标
复制链接

1.4.8. Knative Kafka 订阅指标
复制链接

1.4.9. Knative Kafka 源指标
复制链接

1.4.10. Knative Kafka sink 指标
复制链接

1.5. Knative Serving 指标
复制链接

1.5.1. 激活器指标
复制链接

1.5.2. 自动缩放器指标
复制链接

1.5.3. Go 运行时指标
复制链接

第 2 章开发人员指标
复制链接

2.1. Serverless 开发人员指标概述
复制链接

2.2. Knative 服务指标默认公开
复制链接

2.3. 带有自定义应用程序指标的 Knative 服务
复制链接

2.4. 配置提取自定义指标
复制链接

2.5. 检查服务的指标
复制链接

2.5.1. 队列代理指标
复制链接

2.6. 服务指标的仪表板
复制链接

2.6.1. 在仪表板中检查服务的指标
复制链接

第 3 章集群日志记录
复制链接

3.1. 为 Serving 和 Eventing 配置日志设置
复制链接

3.1.1. 支持的日志级别
复制链接

3.1.2. 配置日志设置
复制链接

3.1.3. 配置请求日志设置
复制链接

3.1.4. 请求日志记录的参数
复制链接

第 4 章 Tracing
复制链接

4.1. 跟踪请求
复制链接

4.1.1. 分布式追踪概述
复制链接

4.2. 使用 Red Hat OpenShift distributed tracing
复制链接

4.2.1. 使用 Red Hat OpenShift distributed tracing 启用分布式追踪
复制链接

4.3. 使用 Jaeger 分布式追踪
复制链接

4.3.1. 配置 Jaeger 以启用分布式追踪
复制链接

法律通告
复制链接