10.8. IBM Power に関する問題のトラブルシューティング
AI Inference Server コンテナーからモデルデータにアクセスできない場合は、次の手順を実行します。
-
コンテナーへの
/modelsフォルダーのマッピングが正しいことを確認します。 - ホストの SELinux 設定の確認
$HOME/modelsディレクトリーに適切なパーミッションを適用していることを確認します。次に例を示します。chmod -R 755 $HOME/models
$ chmod -R 755 $HOME/modelsCopy to Clipboard Copied! Toggle word wrap Toggle overflow Podman ボリュームマウントに
:Zオプションを使用していることを確認してください。podman run -d --device=/dev/vfio \ -v $HOME/models:/models:Z \ # ...$ podman run -d --device=/dev/vfio \ -v $HOME/models:/models:Z \ # ...Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
デコードモデルに
VLLM_SPYRE_USE_CB=1を設定するようにしてください。
10.8.1. IBM Spyre for Power AI acclerator カードの問題 リンクのコピーリンクがクリップボードにコピーされました!
-
IBM Spyre AI アクセラレーターカードがホスト上で表示されていることを確認します。
lspciを使用して、カードが利用可能であることを確認します。 -
ユーザーが送信グループに属していることを
確認します。 - Service Report ツールを使用して、カードアクセスの問題を診断し、修正します。IBM Power Systems サービスおよび生産性ツール を参照してください。
10.8.2. IBM Spyre for Power のパフォーマンス問題 リンクのコピーリンクがクリップボードにコピーされました!
- すべての Spyre カードが、IBM Power サーバーの I/O ドロワーの最初の 4 つのスロットでセキュアに固定されていることを確認します。最初の 4 つのスロットは、最高速度の PCIe インターフェイスを持っています。
- LPAR に割り当てられたカードがすべて同じドロワーにあることを確認します。L/O レイテンシーが増加するため、ドロワー間でカードを分離しないでください。詳細は、IBM Power11 ドキュメント を参照して ください。
IBM Spyre AI アクセラレーターカードでエラーが発生した場合は、プロファイルするワークロードと共に
aiu-smiツールを使用できます。以下の手順を実行します。- モデルを開始します。
2 つ目のターミナルから、モデルをクエリーします。以下に例を示します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 3 つ目のターミナルから、
aiu-smiツールを実行します。podman exec -it <CONTAINER_ID> -c aiu-smi
$ podman exec -it <CONTAINER_ID> -c aiu-smiCopy to Clipboard Copied! Toggle word wrap Toggle overflow または、実行中のコンテナーに対して実行し、
aiu-smiを実行します。以下に例を示します。podman exec -it <CONTAINER_ID> bash
$ podman exec -it <CONTAINER_ID> bashCopy to Clipboard Copied! Toggle word wrap Toggle overflow コンテナー内で
aiu-smiツールを実行します。aiu-smi
[senuser@689230aca2ba ~]$ aiu-smiCopy to Clipboard Copied! Toggle word wrap Toggle overflow aiu-smi 出力の例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow