2.16. 监控模型性能
在单型号服务平台中,您可以查看平台上部署的特定模型的性能指标。
2.16.1. 查看已部署模型的性能指标 复制链接链接已复制到粘贴板!
您可以监控以下指标,以了解在单型号服务平台上部署的特定模型:
- 请求数 - 特定模型失败的请求数。
- 平均响应时间(ms)- 对请求做出特定模型的平均时间。
- CPU 使用率(%) -特定模型当前使用的每个模型副本的 CPU 限值百分比。
- 内存使用率(%) -特定模型使用的每个模型副本的内存限值百分比。
您可以为这些指标指定时间范围和刷新间隔,例如,当峰值使用小时以及模型在指定时间执行的方式时。
先决条件
- 已安装 Red Hat OpenShift AI。
- 集群管理员为 OpenShift 集群上的用户定义的项目启用了用户工作负载监控(UWM)。如需更多信息,请参阅 为用户定义的项目启用监控,以及为 单模式服务平台配置监控。
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users或rhoai-admins)的一部分。 以下仪表板配置选项被设置为默认值,如下所示:
disablePerformanceMetrics:false disableKServeMetrics:false
disablePerformanceMetrics:false disableKServeMetrics:falseCopy to Clipboard Copied! Toggle word wrap Toggle overflow 如需更多信息,请参阅 Dashboard 配置选项。
已使用预安装的运行时在单模式服务平台上部署了模型。
注意只有在使用预安装模型服务运行时或从预安装运行时重复的自定义运行时,指标只支持部署模型。
流程
在 OpenShift AI 仪表板导航菜单中点 Data Science projects。
Data Science 项目页将打开。
- 点击包含您要监控的数据科学模型的项目名称。
- 在项目详情页面中,点 Models 选项卡。
- 选择您感兴趣的模型。
在 Endpoint performance 选项卡中,设置以下选项:
- 时间范围 -指定跟踪指标的时长。您可以选择其中一个值:1 小时、24 小时、7 天和 30 天。
- 刷新 interval - 指定指标页面中图形的频率(显示最新的数据)。您可以选择以下值之一:15 秒、30 秒、1 分钟、5 分钟、15 分钟、30 分钟、1 小时、2 小时和 1 天。
- 向下滚动以查看请求数、平均响应时间、CPU 使用率和内存使用率的数据图形。
验证
Endpoint 性能 选项卡显示模型的指标图。
2.16.2. 部署 Grafana 指标仪表板 复制链接链接已复制到粘贴板!
您可以为用户工作负载监控(UWM)部署 Grafana 指标仪表板,以监控单模型服务平台上部署的模型的性能和资源使用指标。
您可以创建 Kustomize 覆盖,如下例所示。使用覆盖为通过 OpenVino Model Server (OVMS)和 vLLM 部署的模型部署预配置指标仪表板。
先决条件
- 具有 OpenShift 集群的集群 admin 特权。
- 集群管理员为 OpenShift 集群上的用户定义的项目启用了用户工作负载监控(UWM)。如需更多信息,请参阅 为用户定义的项目启用监控,以及为 单模式服务平台配置监控。
- 已安装 OpenShift 命令行界面(CLI)。如需更多信息 ,请参阅安装 OpenShift CLI。
您已创建了覆盖来部署 Grafana 实例,如下例所示。
注意要查看 GPU 指标,您必须启用 NVIDIA GPU 监控仪表板,如 启用 GPU 监控仪表板 中所述。GPU 监控仪表板提供对 GPU 使用率、内存用量和其他 GPU 节点的指标的全面视图。
流程
- 在终端窗口中,以集群管理员身份登录 OpenShift CLI。
- 如果您还没有创建覆盖来安装 Grafana operator 和指标仪表板,请参阅 RHOAI UWM 存储库 来创建它。
使用您创建的覆盖在 OpenShift 集群上安装 Grafana 实例和指标仪表板。将
<overlay-name> 替换为覆盖的名称。oc apply -k overlays/<overlay-name>
oc apply -k overlays/<overlay-name>Copy to Clipboard Copied! Toggle word wrap Toggle overflow 检索 Grafana 实例的 URL。将
<namespace> 替换为包含 Grafana 实例的命名空间。oc get route -n <namespace> grafana-route -o jsonpath='{.spec.host}'oc get route -n <namespace> grafana-route -o jsonpath='{.spec.host}'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 您会看到类似以下示例的输出。使用 URL 访问 Grafana 实例:
grafana-<namespace>.apps.example-openshift.com
grafana-<namespace>.apps.example-openshift.comCopy to Clipboard Copied! Toggle word wrap Toggle overflow
验证
- 您可以访问 Grafana 实例上 KServe、vLLM 和 OVMS 的预配置仪表板。