1.5. 既知の問題

MMLU 評価の実行

RHEL AI バージョン 1.5 では、MMLU を実行するときに --skip-server フラグを使用する必要があります。

一部の NVIDIA A100 システムでの自動検出が間違っている

RHEL AI は、A100 アクセラレーターを搭載したマシンで誤ったシステムプロファイルを自動検出する場合があります。

正しいシステムプロファイルを再初期化して渡すことで、正しいプロファイルを選択できます。

ilab config init --profile <path-to-system-profile>

$ ilab config init --profile <path-to-system-profile>

Copy to Clipboard

Toggle word wrap

Fabric マネージャーは必ずしも NVIDIA アクセラレーターで起動するわけではない

NVIDIA システムに Red Hat Enterprise Linux AI をインストールした後、モデルを提供またはトレーニングするときに次のエラーが表示される場合があります。

INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:56: Using model '/var/home/cloud-user/.local/share/instructlab/phased/phase2/checkpoints/hf_format/samples_29117' with -1 gpu-lay
ers and 4096 max context size.
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:88: '--gpus' flag used alongside '--tensor-parallel-size' in the vllm_args section of the config file. Using value of the --gpus

File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 105, in build_async_engine_client
    async with build_async_engine_client_from_engine_args(
  File "/usr/lib64/python3.11/contextlib.py", line 210, in __aenter__
    return await anext(self.gen)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 192, in build_async_engine_client_from_engine_args
    raise RuntimeError(
RuntimeError: Engine process failed to start

INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:56: Using model '/var/home/cloud-user/.local/share/instructlab/phased/phase2/checkpoints/hf_format/samples_29117' with -1 gpu-lay
ers and 4096 max context size.
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:88: '--gpus' flag used alongside '--tensor-parallel-size' in the vllm_args section of the config file. Using value of the --gpus

File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 105, in build_async_engine_client
    async with build_async_engine_client_from_engine_args(
  File "/usr/lib64/python3.11/contextlib.py", line 210, in __aenter__
    return await anext(self.gen)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 192, in build_async_engine_client_from_engine_args
    raise RuntimeError(
RuntimeError: Engine process failed to start

Copy to Clipboard

Toggle word wrap

この問題を解決するには、次のコマンドを実行する必要があります。

sudo systemctl stop nvidia-persistenced.service
sudo systemctl start nvidia-fabricmanager.service
sudo systemctl start nvidia-persistenced.service

$ sudo systemctl stop nvidia-persistenced.service
$ sudo systemctl start nvidia-fabricmanager.service
$ sudo systemctl start nvidia-persistenced.service

Copy to Clipboard

Toggle word wrap

UI AMD テクノロジープレビューのインストール

Red Hat Enterprise Linux AI バージョン 1.5 は、現在、テクノロジープレビューである AMD ISO を使用したグラフィカルベースのインストールをサポートしていません。kickstart ファイル内の text パラメーターが非対話型インストール用に設定されていることを確認します。インストール時のクラッシュを回避するために、対話型インストール中にシェルで inst.text を渡すこともできます。

SDG が 4xL40 で失敗する場合がある

SDG を 4xL40s で実行するには、--num-cpus フラグを付けて値を 4 に設定して SDG を実行する必要があります。

ilab data generate --num-cpus 4

$ ilab data generate --num-cpus 4

Copy to Clipboard

Toggle word wrap

granite-8b-starter-v1 モデルの MMLU と MMLU_BRANCH

granite-8b-starter-v1 LLM から構築されたモデルを評価する場合は、MMLU および MMLU_BRANCH ベンチマークの実行時に vLLM が起動しないというエラーが発生する可能性があります。

vLLM が起動しない場合は、config.yaml ファイルの serve セクションに次のパラメーターを追加します。

serve:
  vllm:
    vllm_args: [--dtype bfloat16]

serve:
  vllm:
    vllm_args: [--dtype bfloat16]

Copy to Clipboard

Toggle word wrap

nfs 経由の kdump

Red Hat Enterprise Linux AI バージョン 1.5 は、設定なしでは nfs 経由の kdump をサポートしません。この機能を使用するには、次のコマンドを実行します。

mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump

mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump

Copy to Clipboard

Toggle word wrap

1.5. 既知の問題

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links