7.4. CUDA アクセラレーターエラー


  • CUDA アクセラレーターを使用してモデルを実行すると self.graph.replay() エラーが発生する可能性があります。

    vLLM がクラッシュし、エラートレースが vllm/worker/model_runner.py モジュールの self.graph.replay() メソッドの付近でエラーが発生した場合、CUDAGraph クラス内で発生する CUDA エラーである可能性が最も高くなります。

    エラーの原因となる特定の CUDA 操作を特定するには、vllm コマンドラインに --enforce-eager サーバー引数を追加して CUDAGraph の最適化を無効にし、問題のある CUDA 操作を分離します。

  • ハードウェアまたはドライバーの設定が誤っているために、アクセラレーターと CPU の通信に問題が発生する可能性があります。

    一部の NVIDIA GPU タイプが搭載されたマルチ GPU システムでは、NVIDIA Fabric Manager が必要です。nvidia-fabricmanager パッケージおよび関連する systemd サービスがインストールされていないか、パッケージが実行されていない可能性があります。

    diagnostic Python script を実行して、NVIDIA Collective Communications Library (NCCL) と Gloo ライブラリーコンポーネントが正しく通信しているかどうかを確認します。

    NVIDIA システムでは、次のコマンドを実行して Fabric Manager のステータスを確認します。

    $ systemctl status nvidia-fabricmanager
    Copy to Clipboard Toggle word wrap

    正常に設定されたシステムでは、サービスはアクティブになり、エラーなく実行されるはずです。

  • テンソル並列処理を有効にして vLLM を実行し、NVIDIA マルチインスタンス GPU (MIG) ハードウェアで --tensor-parallel-size を 1 より大きく設定すると、初期モデルの読み込みフェーズまたはシェイプチェックフェーズで AssertionError が発生します。これは通常、vLLM を起動したときに最初に発生するエラーです。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat