第6章 大規模言語モデルの評価


大規模言語モデル (LLM) は、テキストの認識や生成などの自然言語処理タスク用に設計された人工知能 (AI) プログラムの一種です。

データサイエンティストは、出力の正確性と品質を確保するために、さまざまなメトリクスに照らして大規模言語モデルを監視する必要がある場合があります。要約、言語の有害性、質問回答の精度などの機能や特徴を評価して、その情報をもとにモデルのパラメーターを改善できます。

Red Hat OpenShift AI は、LM-Eval と呼ばれる機能で、サービスとしての言語モデル評価 (LM-Eval-aaS) を提供しています。LM-Eval は、さまざまな評価タスクで生成言語モデルをテストするための統一的なフレームワークを提供します。

次のセクションでは、評価ジョブをアクティブ化し、モデルの能力の分析を生成できる LMEvalJob カスタムリソース (CR) を作成する方法を説明します。

6.1. LM-Eval のセットアップ

LM-Eval は、大規模言語モデルを評価するために設計されたサービスであり、TrustyAI Operator に統合されています。

このサービスは、次の 2 つのオープンソースプロジェクトに基づいて構築されています。

  • EleutherAI が開発する LM Evaluation Harness: 言語モデルを評価するための包括的なフレームワークを提供します。
  • Unitxt: 追加機能により評価プロセスを強化するツールです。

以下では、評価ジョブを開始して結果を取得するための LMEvalJob カスタムリソース (CR) を作成する方法について説明します。

LM-Eval のグローバル設定

LM-Eval サービスの設定可能なグローバル設定は、trustyai-service-operator-config という名前の TrustyAI Operator のグローバル ConfigMap に保存されています。グローバル設定は、Operator と同じ namespace にあります。

LM-Eval では次のプロパティーを設定できます。

Expand
表6.1 LM-Eval のプロパティー
プロパティーデフォルト説明

lmes-detect-device

true/false

利用可能な GPU があるかどうかを検出し、LM Evaluation Harness の --device 引数に値を割り当てます。GPU が利用可能な場合、値は cuda になります。利用可能な GPU がない場合、値は cpu になります。

lmes-pod-image

quay.io/trustyai/ta-lmes-job:latest

LM-Eval ジョブのイメージ。このイメージには、LM Evaluation Harness と Unitxt の Python パッケージが含まれています。

lmes-driver-image

quay.io/trustyai/ta-lmes-driver:latest

LM-Eval ドライバーのイメージ。ドライバーの詳細は、cmd/lmes_driver ディレクトリーを参照してください。

lmes-image-pull-policy

常時

評価ジョブを実行するときのイメージ取得ポリシー。

lmes-default-batch-size

8

モデル推論 API を呼び出すときのデフォルトのバッチサイズ。デフォルトのバッチサイズはローカルモデルでのみ使用できます。

lmes-max-batch-size

24

ユーザーが評価ジョブで指定できる最大バッチサイズ。

lmes-pod-checking-interval

10s

評価ジョブ用のジョブ Pod をチェックする間隔。

lmes-allow-online

true

LMEval ジョブがオンラインモードを on に設定して、インターネットからアーティファクト (モデル、データセット、トークナイザー) にアクセスできるかどうか。

lmes-code-execution

true

LMEval ジョブが trust remote code モードを on に設定できるかどうかを決定します。

ConfigMap の設定を更新したら、Operator を再起動して新しい値を適用します。

重要

allowOnline 設定は、Red Hat OpenShift AI の Operator レベルではデフォルトで無効になっています。allowOnline を使用すると、外部ソースからアーティファクトを自動的にダウンロードする権限がジョブに与えられるためです。

allowOnline モードの有効化

allowOnline モードを有効にするには、次のコードを使用して TrustyAI Operator の ConfigMap にパッチを適用します。

 kubectl patch configmap trustyai-service-operator-config -n redhat-ods-applications \
--type merge -p '{"data":{"lmes-allow-online":"true","lmes-allow-code-execution":"true"}}'
Copy to Clipboard Toggle word wrap

その後、次のコマンドで TrustyAI Operator を再起動します。

kubectl rollout restart deployment trustyai-service-operator-controller-manager -n redhat-ods-applications
Copy to Clipboard Toggle word wrap
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat