7.4. CUDA アクセラレーターエラー
CUDA アクセラレーターを使用してモデルを実行すると
self.graph.replay()
エラーが発生する可能性があります。vLLM がクラッシュし、エラートレースが
vllm/worker/model_runner.py
モジュールのself.graph.replay()
メソッドの付近でエラーが発生した場合、CUDAGraph
クラス内で発生する CUDA エラーである可能性が最も高くなります。エラーの原因となる特定の CUDA 操作を特定するには、
vllm
コマンドラインに--enforce-eager
サーバー引数を追加してCUDAGraph
の最適化を無効にし、問題のある CUDA 操作を分離します。ハードウェアまたはドライバーの設定が誤っているために、アクセラレーターと CPU の通信に問題が発生する可能性があります。
一部の NVIDIA GPU タイプが搭載されたマルチ GPU システムでは、NVIDIA Fabric Manager が必要です。
nvidia-fabricmanager
パッケージおよび関連する systemd サービスがインストールされていないか、パッケージが実行されていない可能性があります。diagnostic Python script を実行して、NVIDIA Collective Communications Library (NCCL) と Gloo ライブラリーコンポーネントが正しく通信しているかどうかを確認します。
NVIDIA システムでは、次のコマンドを実行して Fabric Manager のステータスを確認します。
systemctl status nvidia-fabricmanager
$ systemctl status nvidia-fabricmanager
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 正常に設定されたシステムでは、サービスはアクティブになり、エラーなく実行されるはずです。
-
テンソル並列処理を有効にして vLLM を実行し、NVIDIA マルチインスタンス GPU (MIG) ハードウェアで
--tensor-parallel-size
を 1 より大きく設定すると、初期モデルの読み込みフェーズまたはシェイプチェックフェーズでAssertionError
が発生します。これは通常、vLLM を起動したときに最初に発生するエラーです。