6.5. 在控制面板中执行模型评估
LM-Eval 是集成于 TrustyAI Operator 中的语言模型评估即服务(LM-Eval-aaS)功能。它为各种评估任务中测试通用语言模型提供了一个统一的框架。您可以通过 Red Hat OpenShift AI 仪表板或命令行界面(CLI)使用 LM-Eval。这些说明是使用仪表板。
使用仪表板进行模型评估目前在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
先决条件
- 您已使用管理员权限登录到 Red Hat OpenShift AI。
- 您已启用了 TrustyAI 组件,如 启用 TrustyAI 组件 中所述。
- 您已在 OpenShift AI 中创建了数据科学项目。
- 您已在数据科学项目中部署了 LLM 模型。
默认情况下,Model 评估 选项在仪表板导航菜单中隐藏。要在仪表板中显示 Model evaluations 选项,请转至 Red Hat OpenShift AI 中的 OdhDashboardConfig 自定义资源(CR),并将 disableLMEval 值设置为 false。有关启用仪表板配置选项的更多信息,请参阅 Dashboard 配置选项。
流程
在控制面板中,点 Models > Model evaluation run。Model 评估页面将打开。它包含:
- 开始评估运行 按钮。如果您还没有运行以前的评估,则只会显示此按钮。
- 您之前运行的评估列表(如果存在)。
- 您可以点击 项目下拉菜单 选项来显示与一个项目相关的评估,而不是所有项目。
- 根据模型或评估名称对评估进行排序的过滤器。
下表概述了评估列表的元素和功能:
| 属性 | 功能 |
|---|---|
| 评估 | 评估的名称。 |
| model | 评估中使用的模型。 |
| evaluated | 创建评估的日期和时间。 |
| Status | 评估的状态: running、completed 或 failed。 |
| 更多选项图标 | 点此图标访问删除评估的选项,或以 JSON 格式下载评估日志。 |
- 从 Project 下拉菜单中选择您要评估该模型的项目的命名空间。
- 点 Start evaluation run 按钮。此时会显示 Model 评估表单。
填写表单的详细信息。模型参数概述会在填写表单详情后显示:
- Model name :从项目中所有部署的 LLMs 中选择一个模型。
- 评估名称 :为您的评估提供唯一名称。
- 任务 :选择一个或多个评估任务,以测量您的 LLM。支持 100 个最常见的评估任务。
model type: 根据您使用的提示格式类型选择模型类型:
- local-completion :您自己编译整个提示链。当您想评估接受纯文本提示符的模型并返回延续时,请使用此选项。
-
local-chat-completion :框架会自动注入角色或模板。将此用于模拟对话的模型,方法是使用
user和assistant等角色获取聊天消息列表并适当地回复。
安全设置 :
- 在线可用 :选择 enable 以允许您的模型访问互联网来下载数据集。
信任 远程代码 :选择 enable 以允许您的模型信任项目外部的代码。
注意如果全局设置中的 security 选项设置为
active,则 Security settings 部分会被灰显。
- 在填写表单详情后,会看到一个模型参数概述。
完成令牌程序设置:
-
Tokenized requests :如果设为
true,则评估请求将划分成令牌。如果设置为false,则评估数据集将保留为原始文本。 - Tokenizer: 键入评估所需的模型令牌程序 URL。
-
Tokenized requests :如果设为
单击 Evaluate。屏幕返回到项目的 Model 评估页面,您的作业会显示在 evaluations 列表中。
注意- 根据硬件支持、模型大小和评估任务类型等因素,可以花时间完成评估。status 列报告评估的当前状态: 已完成、运行 或 failed。
- 如果您的评估失败,集群中的评估 pod 日志会提供更多信息。