6.5. 在控制面板中执行模型评估


LM-Eval 是集成于 TrustyAI Operator 中的语言模型评估即服务(LM-Eval-aaS)功能。它为各种评估任务中测试通用语言模型提供了一个统一的框架。您可以通过 Red Hat OpenShift AI 仪表板或命令行界面(CLI)使用 LM-Eval。这些说明是使用仪表板。

重要

使用仪表板进行模型评估目前在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

先决条件

  • 您已使用管理员权限登录到 Red Hat OpenShift AI。
  • 您已启用了 TrustyAI 组件,如 启用 TrustyAI 组件 中所述。
  • 您已在 OpenShift AI 中创建了数据科学项目。
  • 您已在数据科学项目中部署了 LLM 模型。
注意

默认情况下,Model 评估 选项在仪表板导航菜单中隐藏。要在仪表板中显示 Model evaluations 选项,请转至 Red Hat OpenShift AI 中的 OdhDashboardConfig 自定义资源(CR),并将 disableLMEval 值设置为 false。有关启用仪表板配置选项的更多信息,请参阅 Dashboard 配置选项

流程

  1. 在控制面板中,点 Models > Model evaluation run。Model 评估页面将打开。它包含:

    1. 开始评估运行 按钮。如果您还没有运行以前的评估,则只会显示此按钮。
    2. 您之前运行的评估列表(如果存在)。
    3. 您可以点击 项目下拉菜单 选项来显示与一个项目相关的评估,而不是所有项目。
    4. 根据模型或评估名称对评估进行排序的过滤器。

    下表概述了评估列表的元素和功能:

Expand
表 6.7. 评估列表组件
属性功能

评估

评估的名称。

model

评估中使用的模型。

evaluated

创建评估的日期和时间。

Status

评估的状态: running、completed 或 failed。

更多选项图标

点此图标访问删除评估的选项,或以 JSON 格式下载评估日志。

  1. Project 下拉菜单中选择您要评估该模型的项目的命名空间。
  2. Start evaluation run 按钮。此时会显示 Model 评估表单。
  3. 填写表单的详细信息。模型参数概述会在填写表单详情后显示:

    1. Model name :从项目中所有部署的 LLMs 中选择一个模型。
    2. 评估名称 :为您的评估提供唯一名称。
    3. 任务 :选择一个或多个评估任务,以测量您的 LLM。支持 100 个最常见的评估任务。
    4. model type: 根据您使用的提示格式类型选择模型类型:

      1. local-completion :您自己编译整个提示链。当您想评估接受纯文本提示符的模型并返回延续时,请使用此选项。
      2. local-chat-completion :框架会自动注入角色或模板。将此用于模拟对话的模型,方法是使用 userassistant 等角色获取聊天消息列表并适当地回复。
    5. 安全设置

      1. 在线可用 :选择 enable 以允许您的模型访问互联网来下载数据集。
      2. 信任 远程代码 :选择 enable 以允许您的模型信任项目外部的代码。

        注意

        如果全局设置中的 security 选项设置为 active,则 Security settings 部分会被灰显。

  4. 在填写表单详情后,会看到一个模型参数概述。
  5. 完成令牌程序设置:

    1. Tokenized requests :如果设为 true,则评估请求将划分成令牌。如果设置为 false,则评估数据集将保留为原始文本。
    2. Tokenizer: 键入评估所需的模型令牌程序 URL。
  6. 单击 Evaluate。屏幕返回到项目的 Model 评估页面,您的作业会显示在 evaluations 列表中。

    注意
    • 根据硬件支持、模型大小和评估任务类型等因素,可以花时间完成评估。status 列报告评估的当前状态: 已完成运行failed
    • 如果您的评估失败,集群中的评估 pod 日志会提供更多信息。
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部