10.8. IBM Power に関する問題のトラブルシューティング
AI Inference Server コンテナーからモデルデータにアクセスできない場合は、次の手順を実行します。
-
コンテナーへの
/modelsフォルダーのマッピングが正しいことを確認します。 - ホストの SELinux 設定の確認
$HOME/modelsディレクトリーに適切なパーミッションを適用していることを確認します。次に例を示します。$ chmod -R 755 $HOME/modelsPodman ボリュームマウントに
:Zオプションを使用していることを確認してください。$ podman run -d --device=/dev/vfio \ -v $HOME/models:/models:Z \ # ...-
デコードモデルに
VLLM_SPYRE_USE_CB=1を設定するようにしてください。
10.8.1. IBM Spyre for Power AI acclerator カードの問題 リンクのコピーリンクがクリップボードにコピーされました!
-
IBM Spyre AI アクセラレーターカードがホスト上で表示されていることを確認します。
lspciを使用して、カードが利用可能であることを確認します。 -
ユーザーが送信グループに属していることを
確認します。 - Service Report ツールを使用して、カードアクセスの問題を診断し、修正します。IBM Power Systems サービスおよび生産性ツール を参照してください。
10.8.2. IBM Spyre for Power のパフォーマンス問題 リンクのコピーリンクがクリップボードにコピーされました!
- すべての Spyre カードが、IBM Power サーバーの I/O ドロワーの最初の 4 つのスロットでセキュアに固定されていることを確認します。最初の 4 つのスロットは、最高速度の PCIe インターフェイスを持っています。
- LPAR に割り当てられたカードがすべて同じドロワーにあることを確認します。L/O レイテンシーが増加するため、ドロワー間でカードを分離しないでください。詳細は、IBM Power11 ドキュメント を参照して ください。
IBM Spyre AI アクセラレーターカードでエラーが発生した場合は、プロファイルするワークロードと共に
aiu-smiツールを使用できます。以下の手順を実行します。- モデルを開始します。
2 つ目のターミナルから、モデルをクエリーします。以下に例を示します。
$ curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" \ -d '{ "model": "/models/granite-3.3-8b-instruct", "prompt": "Write me a long story about surfing dogs in Malibu.", "max_tokens": 8128, "temperature": 1, "n": 10 }'3 つ目のターミナルから、
aiu-smiツールを実行します。$ podman exec -it <CONTAINER_ID> -c aiu-smiまたは、実行中のコンテナーに対して実行し、
aiu-smiを実行します。以下に例を示します。$ podman exec -it <CONTAINER_ID> bashコンテナー内で
aiu-smiツールを実行します。[senuser@689230aca2ba ~]$ aiu-smiaiu-smi 出力の例
#MetricFiles # 0 /tmp/metrics.0181:50:00.0 # 1 /tmp/metrics.0182:60:00.0 # 2 /tmp/metrics.0183:70:00.0 # 3 /tmp/metrics.0184:80:00.0 #ID Date Time hostcpu hostmem pwr gtemp busy rdmem wrmem rxpci txpci rdrdma wrrdma rsvmem # YYYYMMDD HH:MM:SS % % W C % GB/s GB/s GB/s GB/s GB/s GB/s MB 0 20251103 20:18:36 951.6 11.5 33.8 34.1 96 41.221 5.480 0.967 0.964 0.000 0.000 0.000 1 20251103 20:18:36 951.6 11.5 30.6 33.0 96 41.201 5.464 0.967 0.964 0.000 0.000 0.000 2 20251103 20:18:36 951.6 11.5 40.5 34.7 96 41.266 5.473 0.969 0.966 0.000 0.000 0.000 3 20251103 20:18:36 951.6 11.5 37.3 39.2 96 41.358 5.484 0.971 0.968 0.000 0.000 0.000