7.5. ネットワークエラー
複雑なネットワーク設定ではネットワークエラーが発生する可能性があります。
ネットワークの問題のトラブルシューティングを行うには、以下のように誤った IP アドレスが表示されている DEBUG ステートメントのログを検索します。
DEBUG 06-10 21:32:17 parallel_state.py:88] world_size=8 rank=0 local_rank=0 distributed_init_method=tcp://<incorrect_ip_address>:54641 backend=nccl
DEBUG 06-10 21:32:17 parallel_state.py:88] world_size=8 rank=0 local_rank=0 distributed_init_method=tcp://<incorrect_ip_address>:54641 backend=ncclCopy to Clipboard Copied! Toggle word wrap Toggle overflow この問題を修正するには、以下のように
VLLM_HOST_IP環境変数で正しい IP アドレスを設定します。export VLLM_HOST_IP=<correct_ip_address>
$ export VLLM_HOST_IP=<correct_ip_address>Copy to Clipboard Copied! Toggle word wrap Toggle overflow NCCL および Gloo の IP アドレスに関連付けられたネットワークインターフェイスを指定します。
export NCCL_SOCKET_IFNAME=<your_network_interface>
$ export NCCL_SOCKET_IFNAME=<your_network_interface>Copy to Clipboard Copied! Toggle word wrap Toggle overflow export GLOO_SOCKET_IFNAME=<your_network_interface>
$ export GLOO_SOCKET_IFNAME=<your_network_interface>Copy to Clipboard Copied! Toggle word wrap Toggle overflow