1.5. 既知の問題
AMD-smi はインストール時に使用できない
ISO イメージを使用して Red Hat Enterprise Linux AI をインストールした後、または bootc-amd-rhel9 コンテナーを使用してシステムにアップグレードした後、amd-smi ツールはデフォルトでは動作しません。amd-smi を有効にするには、次のコマンドを使用して、適切な ROCm バージョンをユーザーの PATH 変数に追加します。
$ export PATH="$PATH:/opt/rocm-6.1.2/bin"
一部の NVIDIA A100 システムでの自動検出が間違っている
RHEL AI は、A100 アクセラレーターを搭載したマシンで誤ったシステムプロファイルを自動検出する場合があります。
正しいシステムプロファイルを再初期化して渡すことで、正しいプロファイルを選択できます。
$ ilab config init --profile <path-to-system-profile>
AMD ベアメタルおよび NVIDIA AWS システムでの z-stream へのアップグレード
RHEL AI では、AMD ベアメタルまたは NVIDIA AWS システムにアップグレードすると、アップグレードプロセスに問題が発生します。これらのシステムで RHEL AI z-stream に正常に更新するには、次のコマンドを実行します。
AMD アクセラレーターを搭載したベアメタル
$ sudo bootc switch registry.redhat.io/rhelai1/bootc-amd-rhel9:1.3
NVIDIA アクセラレーターを搭載した AWS
$ sudo bootc switch registry.redhat.io/rhelai1/bootc-nvidia-rhel9:1.3
Fabric マネージャーは必ずしも NVIDIA アクセラレーターで起動するわけではない
NVIDIA システムに Red Hat Enterprise Linux AI をインストールした後、モデルを提供またはトレーニングするときに次のエラーが表示される場合があります。
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:56: Using model '/var/home/cloud-user/.local/share/instructlab/phased/phase2/checkpoints/hf_format/samples_29117' with -1 gpu-lay
ers and 4096 max context size.
INFO 2024-11-26 22:18:04,244 instructlab.model.serve_backend:88: '--gpus' flag used alongside '--tensor-parallel-size' in the vllm_args section of the config file. Using value of the --gpus
File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 105, in build_async_engine_client
async with build_async_engine_client_from_engine_args(
File "/usr/lib64/python3.11/contextlib.py", line 210, in __aenter__
return await anext(self.gen)
^^^^^^^^^^^^^^^^^^^^^
File "/opt/app-root/lib64/python3.11/site-packages/vllm/entrypoints/openai/api_server.py", line 192, in build_async_engine_client_from_engine_args
raise RuntimeError(
RuntimeError: Engine process failed to start
この問題を解決するには、次のコマンドを実行する必要があります。
$ sudo systemctl stop nvidia-persistenced.service
$ sudo systemctl start nvidia-fabricmanager.service
$ sudo systemctl start nvidia-persistenced.service
UI AMD テクノロジープレビューのインストール
Red Hat Enterprise Linux AI バージョン 1.4 は現在、テクノロジープレビューされた AMD ISO を使用したグラフィカルベースのインストールをサポートしていません。kickstart ファイル内の text パラメーターが非対話型インストール用に設定されていることを確認します。インストール時のクラッシュを回避するために、対話型インストール中にシェルで inst.text を渡すこともできます。
SDG が 4xL40 で失敗する場合がある
SDG を 4xL40s で実行するには、--num-cpus フラグを付けて値を 4 に設定して SDG を実行する必要があります。
$ ilab data generate --num-cpus 4
granite-8b-starter-v1 モデルの MMLU と MMLU_BRANCH
granite-8b-starter-v1 LLM から構築されたモデルを評価する場合は、MMLU および MMLU_BRANCH ベンチマークの実行時に vLLM が起動しないというエラーが発生する可能性があります。
vLLM が起動しない場合は、config.yaml ファイルの serve セクションに次のパラメーターを追加します。
serve:
vllm:
vllm_args: [--dtype bfloat16]
nfs 経由の kdump
Red Hat Enterprise Linux AI バージョン 1.4 は、設定なしでは nfs 経由の kdump をサポートしません。この機能を使用するには、次のコマンドを実行します。
mkdir -p /var/lib/kdump/dracut.conf.d
echo "dracutmodules=''" > /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "omit_dracutmodules=''" >> /var/lib/kdump/dracut.conf.d/99-kdump.conf
echo "dracut_args --confdir /var/lib/kdump/dracut.conf.d --install /usr/lib/passwd --install /usr/lib/group" >> /etc/kdump.conf
systemctl restart kdump