3.5. 监控模型性能
在多型号服务平台中,您可以查看模型服务器上部署的所有模型的性能指标,以及模型服务器上部署的特定模型。
3.5.1. 查看模型服务器中所有模型的性能指标 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
您可以监控模型服务器上部署的所有模型的以下指标:
- 每 5 分钟的 HTTP 请求 - 服务器上所有模型失败的 HTTP 请求数。
- 平均响应时间(ms) - 对于服务器上的所有模型,模型服务器响应请求的平均时间。
- CPU 使用率(%) - 服务器上所有模型目前使用的 CPU 容量百分比。
- 内存使用率(%) - 服务器上所有模型目前使用的系统内存的百分比。
您可以为这些指标指定时间范围和刷新间隔,例如,当峰值使用小时以及模型在指定时间执行的方式时。
先决条件
- 已安装 Red Hat OpenShift AI。
- 在安装 OpenShift AI 的 OpenShift 集群上,启用了用户工作负载监控。
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users
或rhoai-admins
)的一部分。 - 您已在多模式服务平台上部署了模型。
流程
在 OpenShift AI 仪表板导航菜单中点 Data Science projects。
Data Science 项目页将打开。
- 点击包含您要监控的数据科学模型的项目名称。
- 在项目详情页面中,点 Models 选项卡。
- 在您感兴趣的模型服务器所在的行中,点操作菜单(ProductShortName),然后选择 View model server metrics。
可选:在模型服务器的指标页面中设置以下选项:
- 时间范围 -指定跟踪指标的时长。您可以选择其中一个值:1 小时、24 小时、7 天和 30 天。
- 刷新 interval - 指定指标页面中图形的频率(显示最新的数据)。您可以选择以下值之一:15 秒、30 秒、1 分钟、5 分钟、15 分钟、30 分钟、1 小时、2 小时和 1 天。
- 向下滚动,以每 5 分钟查看 HTTP 请求的数据图形、平均响应时间、CPU 利用率和内存使用率。
验证
在模型服务器的指标页面中,图形在性能指标上提供数据。
3.5.2. 查看已部署模型的 HTTP 请求指标 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
您可以查看说明在多模式服务平台上部署的特定模型失败的 HTTP 请求或成功的图形。
先决条件
- 已安装 Red Hat OpenShift AI。
- 在安装 OpenShift AI 的 OpenShift 集群上,启用了用户工作负载监控。
以下仪表板配置选项被设置为默认值,如下所示:
disablePerformanceMetrics:false disableKServeMetrics:false
disablePerformanceMetrics:false disableKServeMetrics:false
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用 OpenShift AI 组,则作为 OpenShift 中的用户组或 admin 组(如
rhoai-users
或rhoai-admins
)的一部分。 - 您已在多模式服务平台上部署了模型。
流程
-
在 OpenShift AI 仪表板中点 Models
Model deployments。 - 在 Model deployments 页面中,选择您感兴趣的模型。
可选:在 Endpoint performance 选项卡中设置以下选项:
- 时间范围 -指定跟踪指标的时长。您可以选择其中一个值:1 小时、24 小时、7 天和 30 天。
- 刷新 interval - 指定指标页面中图形的频率(显示最新的数据)。您可以选择以下值之一:15 秒、30 秒、1 分钟、5 分钟、15 分钟、30 分钟、1 小时、2 小时和 1 天。
验证
Endpoint performance 选项卡显示模型的 HTTP 指标图。