第10章 トラブルシューティング
Red Hat AI Inference Server 3.2.5 のトラブルシューティング情報は、モデルの読み込み、メモリー、モデル応答の品質、ネットワーク、GPU ドライバーに関連する一般的な問題について説明しています。一般的な問題に対する回避策 (ある場合) が説明されています。
vLLM で最も一般的な問題は、インストール、モデルの読み込み、メモリー管理、および GPU 通信などに関連するものです。ほとんどの問題は、正しく設定された環境を使用し、互換性のあるハードウェアとソフトウェアのバージョンを確保し、推奨の設定方法に従うことで解決できます。
問題が解決しない場合は、VLLM_LOGGING_LEVEL=DEBUG をエクスポートしてデバッグログを有効にし、ログを確認してください。
$ export VLLM_LOGGING_LEVEL=DEBUG
10.1. モデル読み込みエラー リンクのコピーリンクがクリップボードにコピーされました!
ユーザー namespace 指定せずに Red Hat AI Inference Server コンテナーイメージを実行すると、認識されないモデルエラーが返されます。
podman run --rm -it \ --device nvidia.com/gpu=all \ --security-opt=label=disable \ --shm-size=4GB -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \ --env "HF_HUB_OFFLINE=0" \ -v ./rhaiis-cache:/opt/app-root/src/.cache \ registry.redhat.io/rhaiis/vllm-cuda-rhel9:3.2.5 \ --model RedHatAI/Llama-3.2-1B-Instruct-FP8出力例
ValueError: Unrecognized model in RedHatAI/Llama-3.2-1B-Instruct-FP8. Should have a model_type key in its config.jsonこのエラーを解決するには、最初の Podman パラメーターでコンテナーが root
ユーザーで実行されるように、--userns=keep-id:uid=1001を渡します。podman run --rm -it \ --userns=keep-id:uid=1001 \ --device nvidia.com/gpu=all \ --security-opt=label=disable \ --shm-size=4GB -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \ --env "HF_HUB_OFFLINE=0" \ -v ./rhaiis-cache:/opt/app-root/src/.cache \ registry.redhat.io/rhaiis/vllm-cuda-rhel9:{rhaiis-version} \ --model RedHatAI/Llama-3.2-1B-Instruct-FP8Red Hat AI Inference Server がモデルをダウンロードするときに、ダウンロードが失敗したり、停止したりすることがあります。モデルのダウンロードがハングしないようにするには、まず
huggingface-cliを使用してモデルをダウンロードします。以下に例を示します。$ huggingface-cli download <MODEL_ID> --local-dir <DOWNLOAD_PATH>モデルをサービングするときは、モデルが再度ダウンロードされないように、ローカルモデルパスを vLLM に渡します。
Red Hat AI Inference Server がディスクからモデルをロードすると、プロセスが停止することがあります。大規模なモデルはメモリーを消費し、メモリーが不足すると、RAM とディスク間でデータをスワップするため、システムの速度が低下します。ネットワークファイルシステムの速度が遅いか、使用可能なメモリーが不足すると、過剰なスワップが発生する可能性があります。これは、ファイルシステムがクラスターノード間で共有されているクラスターで発生する可能性があります。
可能な場合は、モデルをローカルディスクに保存して、モデルの読み込み時の速度が低下しないようにします。システムに十分な CPU メモリーがあることを確認してください。
システムにモデルを処理するのに十分な CPU 容量があることを確認してください。
場合によっては、Red Hat AI Inference Server がモデルの検査に失敗することがあります。エラーはログに報告されます。以下に例を示します。
#... File "vllm/model_executor/models/registry.py", line xxx, in \_raise_for_unsupported raise ValueError( ValueError: Model architectures [''] failed to be inspected. Please check the logs for more details.このエラーは、vLLM がモデルファイルのインポートに失敗した場合に発生します。これは通常、vLLM ビルド内の依存関係が欠落しているか、バイナリーが古くなっていることに関連しています。
モデルのアーキテクチャーによってはサポートされないものがあります。検証済みモデル のリストを参照してください。たとえば、次のエラーは、使用しようとしているモデルがサポートされていないことを示しています。
Traceback (most recent call last): #... File "vllm/model_executor/models/registry.py", line xxx, in inspect_model_cls for arch in architectures: TypeError: 'NoneType' object is not iterable#... File "vllm/model_executor/models/registry.py", line xxx, in \_raise_for_unsupported raise ValueError( ValueError: Model architectures [''] are not supported for now. Supported architectures: #...注記DeepSeekV2VLなどの一部のアーキテクチャーでは、--hf_overridesフラグを使用してアーキテクチャーを明示的に指定する必要があります。次に例を示します。--hf_overrides '{\"architectures\": [\"DeepseekVLV2ForCausalLM\"]}8 ビット浮動小数点 (FP8) モデルをロードすると、特定のハードウェアでランタイムエラーが発生することがあります。FP8 には GPU ハードウェアアクセラレーションが必要です。
deepseek-r1などの FP8 モデルや、F8_E4M3テンソルタイプでタグ付けされたモデルをロードすると、エラーが発生します。以下に例を示します。triton.compiler.errors.CompilationError: at 1:0: def \_per_token_group_quant_fp8( \^ ValueError("type fp8e4nv not supported in this architecture. The supported fp8 dtypes are ('fp8e4b15', 'fp8e5')") [rank0]:[W502 11:12:56.323757996 ProcessGroupNCCL.cpp:1496] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources. For more info, please see https://pytorch.org/docs/stable/distributed.html#shutdown (function operator())注記特定のアクセラレーターがサポートされていることを確認するには、スタートガイド を参照してください。現在 FP8 モデルに対応するアクセラレーターは次のとおりです。
モデルをサービングするときに、ホストシステムに関連するランタイムエラーが発生することがあります。たとえば、以下のようなエラーがログに表示される場合があります。
INFO 05-07 19:15:17 [config.py:1901] Chunked prefill is enabled with max_num_batched_tokens=2048. OMP: Error #179: Function Can't open SHM failed: OMP: System error #0: Success Traceback (most recent call last): File "/opt/app-root/bin/vllm", line 8, in <module> sys.exit(main()) .......................... raise RuntimeError("Engine core initialization failed. " RuntimeError: Engine core initialization failed. See root cause above.この問題は、
vllmの起動時に--shm-size=2g引数を渡すことで回避できます。