10.5. 网络错误
您可能会遇到复杂网络配置的网络错误。
要排除网络问题,搜索列出不正确的 IP 地址的 DEBUG 语句的日志,例如:
DEBUG 06-10 21:32:17 parallel_state.py:88] world_size=8 rank=0 local_rank=0 distributed_init_method=tcp://<incorrect_ip_address>:54641 backend=nccl要更正此问题,请使用
VLLM_HOST_IP环境变量设置正确的 IP 地址,例如:$ export VLLM_HOST_IP=<correct_ip_address>指定与 NCCL 和 Gloo 的 IP 地址关联的网络接口:
$ export NCCL_SOCKET_IFNAME=<your_network_interface>$ export GLOO_SOCKET_IFNAME=<your_network_interface>