第 6 章 评估大型语言模型


大型语言模型(LLM)是一种人工智能(AI)程序,专为自然语言处理任务而设计,如识别和生成文本。

作为数据科学家,您可能需要针对一系列指标监控大型语言模型,以确保其输出的准确性和质量。可以评估 summarization、language toxicity 和 questions-answering 准确性等功能,以通知和改进您的模型参数。

Red Hat OpenShift AI 现在在称为 LM-Eval 的功能中提供语言模型评估即服务(LM-Eval-aaS)。LM-Eval 提供了一个统一的框架,可在大量不同的评估任务中测试通用语言模型。

以下小节介绍了如何创建一个 LMEvalJob 自定义资源(CR),它允许您激活评估作业并生成对模型功能进行分析。

6.1. 设置 LM-Eval

LM-Eval 是一个用于评估已集成到 TrustyAI Operator 的大型语言模型的服务。

该服务基于两个开源项目构建:

  • LM 评估 Harness 由 EleutherAI 开发,它为评估语言模型提供了全面的框架
  • Unitxt,一种通过额外功能增强评估过程的工具

以下信息解释了如何创建 LMEvalJob 自定义资源(CR)来启动评估作业并获取结果。

LM-Eval 的全局设置

LM-Eval 服务的可配置全局设置存储在 TrustyAI operator global ConfigMap 中,名为 trustyai-service-operator-config。全局设置位于与 Operator 相同的命名空间中。

您可以为 LM-Eval 配置以下属性:

Expand
表 6.1. LM-Eval 属性
属性默认描述

lmes-detect-device

true/false

检测是否有可用的 GPU,并为 LM Evaluation Harness 分配一个- device 参数的值。如果 GPU 可用,则值为 cuda。如果没有可用的 GPU,则值为 cpu

lmes-pod-image

quay.io/trustyai/ta-lmes-job:latest

LM-Eval 作业的镜像。该镜像包含 LM 评估 Harness 和 Unitxt 的 Python 软件包。

lmes-driver-image

quay.io/trustyai/ta-lmes-driver:latest

LM-Eval 驱动程序的镜像。有关驱动程序的详情,请查看 cmd/lmes_driver 目录。

lmes-image-pull-policy

Always

运行评估作业时的 image-pulling 策略。

lmes-default-batch-size

8

调用模型 inference API 时的默认批处理大小。默认批处理大小仅适用于本地模型。

lmes-max-batch-size

24

用户可以在评估作业中指定的最大批处理大小。

lmes-pod-checking-interval

10s

检查作业 pod 是否有评估作业的时间间隔。

lmes-allow-online

false

LMEval 作业是否可以将在线模式设置为 on 以访问来自互联网的工件(models, datasets, tokenizers)。

lmes-allow-code-execution

false

决定 LMEval 作业是否可以在 上将 信任远程代码 模式设置为。

在更新 ConfigMap 中的设置后,重启 Operator 以应用新值。

重要

在 Red Hat OpenShift AI 的 operator 级别 中默认禁用 allowOnlineallowCodeExecution 设置。LMEval 作业不允许访问互联网或权限运行任何外部下载的代码,除非明确启用。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部