5.5. 网络错误
您可能会遇到复杂网络配置的网络错误。
要排除网络问题,搜索列出不正确的 IP 地址的 DEBUG 语句的日志,例如:
DEBUG 06-10 21:32:17 parallel_state.py:88] world_size=8 rank=0 local_rank=0 distributed_init_method=tcp://<incorrect_ip_address>:54641 backend=nccl
DEBUG 06-10 21:32:17 parallel_state.py:88] world_size=8 rank=0 local_rank=0 distributed_init_method=tcp://<incorrect_ip_address>:54641 backend=nccl
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 要更正此问题,请使用
VLLM_HOST_IP
环境变量设置正确的 IP 地址,例如:export VLLM_HOST_IP=<correct_ip_address>
$ export VLLM_HOST_IP=<correct_ip_address>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 指定与 NCCL 和 Gloo 的 IP 地址关联的网络接口:
export NCCL_SOCKET_IFNAME=<your_network_interface>
$ export NCCL_SOCKET_IFNAME=<your_network_interface>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow export GLOO_SOCKET_IFNAME=<your_network_interface>
$ export GLOO_SOCKET_IFNAME=<your_network_interface>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow