第 6 章评估大型语言模型

大型语言模型(LLM)是一种人工智能(AI)程序，专为自然语言处理任务而设计，如识别和生成文本。

作为数据科学家，您可能需要针对一系列指标监控大型语言模型，以确保其输出的准确性和质量。可以评估 summarization、language toxicity 和 questions-answering 准确性等功能，以通知和改进您的模型参数。

Red Hat OpenShift AI 现在在称为 LM-Eval 的功能中提供语言模型评估即服务(LM-Eval-aaS)。LM-Eval 提供了一个统一的框架，可在大量不同的评估任务中测试通用语言模型。

以下小节介绍了如何创建一个 LMEvalJob 自定义资源(CR)，它允许您激活评估作业并生成对模型功能进行分析。

6.1. 设置 LM-Eval
复制链接

LM-Eval 是一个用于评估已集成到 TrustyAI Operator 的大型语言模型的服务。

该服务基于两个开源项目构建：

以下信息解释了如何创建 LMEvalJob 自定义资源(CR)来启动评估作业并获取结果。

LM-Eval 的全局设置

LM-Eval 服务的可配置全局设置存储在 TrustyAI operator global ConfigMap 中，名为 trustyai-service-operator-config。全局设置位于与 Operator 相同的命名空间中。

您可以为 LM-Eval 配置以下属性：

Expand

表 6.1. LM-Eval 属性
属性	默认	描述
`lmes-detect-device`	`true/false`	检测是否有可用的 GPU，并为 LM Evaluation Harness 分配一个- `device 参数的值`。如果 GPU 可用，则值为 `cuda`。如果没有可用的 GPU，则值为 `cpu`。
`lmes-pod-image`	`quay.io/trustyai/ta-lmes-job:latest`	LM-Eval 作业的镜像。该镜像包含 LM 评估 Harness 和 Unitxt 的 Python 软件包。
`lmes-driver-image`	`quay.io/trustyai/ta-lmes-driver:latest`	LM-Eval 驱动程序的镜像。有关驱动程序的详情，请查看 `cmd/lmes_driver` 目录。
`lmes-image-pull-policy`	`Always`	运行评估作业时的 image-pulling 策略。
`lmes-default-batch-size`	8	调用模型 inference API 时的默认批处理大小。默认批处理大小仅适用于本地模型。
`lmes-max-batch-size`	24	用户可以在评估作业中指定的最大批处理大小。
`lmes-pod-checking-interval`	10s	检查作业 pod 是否有评估作业的时间间隔。
`lmes-allow-online`	`false`	LMEval 作业是否可以将在线模式设置为 `on` 以访问来自互联网的工件(models, datasets, tokenizers)。
`lmes-allow-code-execution`	`false`	决定 LMEval 作业是否可以在 `上将` `信任远程代码` 模式设置为。

在更新 ConfigMap 中的设置后，重启 Operator 以应用新值。

重要

在 Red Hat OpenShift AI 的 operator 级别 中默认禁用 allowOnline 和 allowCodeExecution 设置。LMEval 作业不允许访问互联网或权限运行任何外部下载的代码，除非明确启用。