7.4. CUDA アクセラレーターエラー
CUDA アクセラレーターを使用してモデルを実行すると
self.graph.replay()エラーが発生する可能性があります。vLLM がクラッシュし、エラートレースが
vllm/worker/model_runner.pyモジュールのself.graph.replay()メソッドの付近でエラーが発生した場合、CUDAGraphクラス内で発生する CUDA エラーである可能性が最も高くなります。エラーの原因となる特定の CUDA 操作を特定するには、
vllmコマンドラインに--enforce-eagerサーバー引数を追加してCUDAGraphの最適化を無効にし、問題のある CUDA 操作を分離します。ハードウェアまたはドライバーの設定が誤っているために、アクセラレーターと CPU の通信に問題が発生する可能性があります。
一部の NVIDIA GPU タイプが搭載されたマルチ GPU システムでは、NVIDIA Fabric Manager が必要です。
nvidia-fabricmanagerパッケージおよび関連する systemd サービスがインストールされていないか、パッケージが実行されていない可能性があります。diagnostic Python script を実行して、NVIDIA Collective Communications Library (NCCL) と Gloo ライブラリーコンポーネントが正しく通信しているかどうかを確認します。
NVIDIA システムでは、次のコマンドを実行して Fabric Manager のステータスを確認します。
systemctl status nvidia-fabricmanager
$ systemctl status nvidia-fabricmanagerCopy to Clipboard Copied! Toggle word wrap Toggle overflow 正常に設定されたシステムでは、サービスはアクティブになり、エラーなく実行されるはずです。
-
テンソル並列処理を有効にして vLLM を実行し、NVIDIA マルチインスタンス GPU (MIG) ハードウェアで
--tensor-parallel-sizeを 1 より大きく設定すると、初期モデルの読み込みフェーズまたはシェイプチェックフェーズでAssertionErrorが発生します。これは通常、vLLM を起動したときに最初に発生するエラーです。