10.8. IBM Power に関する問題のトラブルシューティング


AI Inference Server コンテナーからモデルデータにアクセスできない場合は、次の手順を実行します。

  • コンテナーへの /models フォルダーのマッピングが正しいことを確認します。
  • ホストの SELinux 設定の確認
  • $HOME/models ディレクトリーに適切なパーミッションを適用していることを確認します。次に例を示します。

    $ chmod -R 755 $HOME/models
    Copy to Clipboard Toggle word wrap
  • Podman ボリュームマウントに :Z オプションを使用していることを確認してください。

    $ podman run -d --device=/dev/vfio \
         -v $HOME/models:/models:Z \
         # ...
    Copy to Clipboard Toggle word wrap
  • デコードモデルに VLLM_SPYRE_USE_CB=1 を設定するようにしてください。

10.8.1. IBM Spyre for Power AI acclerator カードの問題

  • IBM Spyre AI アクセラレーターカードがホスト上で表示されていることを確認します。lspci を使用して、カードが利用可能であることを確認します。
  • ユーザーが送信グループに属していることを 確認 します。
  • Service Report ツールを使用して、カードアクセスの問題を診断し、修正します。IBM Power Systems サービスおよび生産性ツール を参照してください。

10.8.2. IBM Spyre for Power のパフォーマンス問題

  • すべての Spyre カードが、IBM Power サーバーの I/O ドロワーの最初の 4 つのスロットでセキュアに固定されていることを確認します。最初の 4 つのスロットは、最高速度の PCIe インターフェイスを持っています。
  • LPAR に割り当てられたカードがすべて同じドロワーにあることを確認します。L/O レイテンシーが増加するため、ドロワー間でカードを分離しないでください。詳細は、IBM Power11 ドキュメント を参照して ください。
  • IBM Spyre AI アクセラレーターカードでエラーが発生した場合は、プロファイルするワークロードと共に aiu-smi ツールを使用できます。以下の手順を実行します。

    1. モデルを開始します。
    2. 2 つ目のターミナルから、モデルをクエリーします。以下に例を示します。

      $ curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" \
          -d '{ "model": "/models/granite-3.3-8b-instruct",
                "prompt": "Write me a long story about surfing dogs in Malibu.",
                "max_tokens": 8128,
                "temperature": 1,
                "n": 10
              }'
      Copy to Clipboard Toggle word wrap
    3. 3 つ目のターミナルから、aiu-smi ツールを実行します。

      $ podman exec -it <CONTAINER_ID> -c aiu-smi
      Copy to Clipboard Toggle word wrap
    4. または、実行中のコンテナーに対して実行し、aiu-smi を実行します。以下に例を示します。

      $ podman exec -it <CONTAINER_ID> bash
      Copy to Clipboard Toggle word wrap

      コンテナー内で aiu-smi ツールを実行します。

      [senuser@689230aca2ba ~]$ aiu-smi
      Copy to Clipboard Toggle word wrap

      aiu-smi 出力の例

      #MetricFiles
      # 0 /tmp/metrics.0181:50:00.0
      # 1 /tmp/metrics.0182:60:00.0
      # 2 /tmp/metrics.0183:70:00.0
      # 3 /tmp/metrics.0184:80:00.0
      #ID Date      Time      hostcpu hostmem    pwr  gtemp   busy    rdmem    wrmem    rxpci    txpci   rdrdma   wrrdma   rsvmem
      #   YYYYMMDD  HH:MM:SS        %       %      W      C      %     GB/s     GB/s     GB/s     GB/s     GB/s     GB/s       MB
        0 20251103  20:18:36    951.6    11.5   33.8   34.1     96   41.221    5.480    0.967    0.964    0.000    0.000    0.000
        1 20251103  20:18:36    951.6    11.5   30.6   33.0     96   41.201    5.464    0.967    0.964    0.000    0.000    0.000
        2 20251103  20:18:36    951.6    11.5   40.5   34.7     96   41.266    5.473    0.969    0.966    0.000    0.000    0.000
        3 20251103  20:18:36    951.6    11.5   37.3   39.2     96   41.358    5.484    0.971    0.968    0.000    0.000    0.000
      Copy to Clipboard Toggle word wrap

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat