第 6 章 评估大型语言模型
大型语言模型(LLM)是一种人工智能(AI)程序,专为自然语言处理任务而设计,如识别和生成文本。
作为数据科学家,您可能需要针对一系列指标监控大型语言模型,以确保其输出的准确性和质量。可以评估 summarization、language toxicity 和 questions-answering 准确性等功能,以通知和改进您的模型参数。
Red Hat OpenShift AI 现在在称为 LM-Eval 的功能中提供语言模型评估即服务(LM-Eval-aaS)。LM-Eval 提供了一个统一的框架,可在大量不同的评估任务中测试通用语言模型。
以下小节介绍了如何创建一个 LMEvalJob 自定义资源(CR),它允许您激活评估作业并生成对模型功能进行分析。
6.1. 设置 LM-Eval 复制链接链接已复制到粘贴板!
LM-Eval 是一个用于评估已集成到 TrustyAI Operator 的大型语言模型的服务。
该服务基于两个开源项目构建:
- LM 评估 Harness 由 EleutherAI 开发,它为评估语言模型提供了全面的框架
- Unitxt,一种通过额外功能增强评估过程的工具
以下信息解释了如何创建 LMEvalJob 自定义资源(CR)来启动评估作业并获取结果。
LM-Eval 的全局设置
LM-Eval 服务的可配置全局设置存储在 TrustyAI operator global ConfigMap 中,名为 trustyai-service-operator-config。全局设置位于与 Operator 相同的命名空间中。
您可以为 LM-Eval 配置以下属性:
| 属性 | 默认 | 描述 |
|---|---|---|
|
|
|
检测是否有可用的 GPU,并为 LM Evaluation Harness 分配一个- |
|
|
| LM-Eval 作业的镜像。该镜像包含 LM 评估 Harness 和 Unitxt 的 Python 软件包。 |
|
|
|
LM-Eval 驱动程序的镜像。有关驱动程序的详情,请查看 |
|
|
| 运行评估作业时的 image-pulling 策略。 |
|
| 8 | 调用模型 inference API 时的默认批处理大小。默认批处理大小仅适用于本地模型。 |
|
| 24 | 用户可以在评估作业中指定的最大批处理大小。 |
|
| 10s | 检查作业 pod 是否有评估作业的时间间隔。 |
|
|
|
LMEval 作业是否可以将在线模式设置为 |
|
|
|
决定 LMEval 作业是否可以在 |
在更新 ConfigMap 中的设置后,重启 Operator 以应用新值。
在 Red Hat OpenShift AI 的 operator 级别 中默认禁用 allowOnline 和 allowCodeExecution 设置。LMEval 作业不允许访问互联网或权限运行任何外部下载的代码,除非明确启用。