8.4. CUDA アクセラレーターエラー

CUDA アクセラレーターを使用してモデルを実行すると self.graph.replay() エラーが発生する可能性があります。
vLLM がクラッシュし、エラートレースが vllm/worker/model_runner.py モジュールの self.graph.replay() メソッドの付近でエラーが発生した場合、CUDAGraph クラス内で発生する CUDA エラーである可能性が最も高くなります。
エラーの原因となる特定の CUDA 操作を特定するには、vllm コマンドラインに --enforce-eager サーバー引数を追加して CUDAGraph の最適化を無効にし、問題のある CUDA 操作を分離します。
ハードウェアまたはドライバーの設定が誤っているために、アクセラレーターと CPU の通信に問題が発生する可能性があります。
一部の NVIDIA GPU タイプが搭載されたマルチ GPU システムでは、NVIDIA Fabric Manager が必要です。nvidia-fabricmanager パッケージおよび関連する systemd サービスがインストールされていないか、パッケージが実行されていない可能性があります。
diagnostic Python script を実行して、NVIDIA Collective Communications Library (NCCL) と Gloo ライブラリーコンポーネントが正しく通信しているかどうかを確認します。
NVIDIA システムでは、次のコマンドを実行して Fabric Manager のステータスを確認します。
```
systemctl status nvidia-fabricmanager
```
```
$ systemctl status nvidia-fabricmanager
```
Copy to Clipboard Toggle word wrap
正常に設定されたシステムでは、サービスはアクティブになり、エラーなく実行されるはずです。
テンソル並列処理を有効にして vLLM を実行し、NVIDIA マルチインスタンス GPU (MIG) ハードウェアで --tensor-parallel-size を 1 より大きく設定すると、初期モデルの読み込みフェーズまたはシェイプチェックフェーズで AssertionError が発生します。これは通常、vLLM を起動したときに最初に発生するエラーです。

8.4. CUDA アクセラレーターエラー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links