第 3 章 网络问题故障排除
本章列出了与网络时间协议(NTP)连接的联网和 chrony 的基本故障排除步骤。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
3.1. 基本网络故障排除 复制链接链接已复制到粘贴板!
Red Hat Ceph Storage 很大程度上依赖于可靠的网络连接。Red Hat Ceph Storage 节点使用网络相互通信。网络问题可能会导致 Ceph OSD 的许多问题,如它们流动,或者错误地报告为 down
。网络问题也可能会导致 Ceph 监控器的时钟偏移错误。另外,数据包丢失、高延迟或有限带宽可能会影响集群性能和稳定性。
先决条件
- 节点的根级别访问权限。
流程
在对 Ceph 存储集群中可能出现的网络问题进行故障排除时,安装
net-tools
和telnet
软件包可以帮助:示例
dnf install net-tools dnf install telnet
[root@host01 ~]# dnf install net-tools [root@host01 ~]# dnf install telnet
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 登录
cephadm
shell,再验证 Ceph 配置文件中的public_network
参数是否包含正确的值:示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 退出 shell 并验证网络接口是否已启动:
示例
ip link list
[root@host01 ~]# ip link list 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000 link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 2: ens3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT group default qlen 1000 link/ether 00:1a:4a:00:06:72 brd ff:ff:ff:ff:ff:ff
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 验证 Ceph 节点能够使用其短主机名互相访问。在存储集群中的每个节点上验证这一点:
语法
ping SHORT_HOST_NAME
ping SHORT_HOST_NAME
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
ping host02
[root@host01 ~]# ping host02
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如果使用防火墙,请确保 Ceph 节点能够在适当的端口上互相访问。
firewall-cmd
和telnet
工具可以验证端口状态,以及是否分别打开了端口:语法
firewall-cmd --info-zone=ZONE telnet IP_ADDRESS PORT
firewall-cmd --info-zone=ZONE telnet IP_ADDRESS PORT
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 验证接口计数器上没有错误。验证节点间的网络连接是否有预期的延迟,且没有数据包丢失。
使用
ethtool
命令:语法
ethtool -S INTERFACE
ethtool -S INTERFACE
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用
ifconfig
命令:示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用
netstat
命令:示例
netstat -ai
[root@host01 ~]# netstat -ai Kernel Interface table Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg ens3 1500 311847720 0 364903 0 114341918 0 0 0 BMRU lo 65536 19577001 0 0 0 19577001 0 0 0 LRU
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
对于性能问题,除了延迟检查和验证存储集群所有节点之间的网络带宽外,使用
iperf3
工具。iperf3
工具在服务器和客户端之间执行一个简单的点对点网络带宽测试。在您要检查带宽的 Red Hat Ceph Storage 节点上安装
iperf3
软件包:示例
dnf install iperf3
[root@host01 ~]# dnf install iperf3
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在 Red Hat Ceph Storage 节点上,启动
iperf3
服务器:示例
iperf3 -s
[root@host01 ~]# iperf3 -s ----------------------------------------------------------- Server listening on 5201 -----------------------------------------------------------
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 注意默认端口为 5201,但可以使用
-P
命令参数来设置。在不同的 Red Hat Ceph Storage 节点上,启动
iperf3
客户端:示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 此输出显示 Red Hat Ceph Storage 节点之间 1.1 Gbits/秒的网络带宽,在测试期间没有重新传输(
Retr
)。红帽建议您验证存储集群中所有节点之间的网络带宽。
确保所有节点具有相同的网络互连速度。连接较慢的节点可能会减慢连接速度更快的节点。另外,确保交换机链接可以处理附加节点的聚合带宽:
语法
ethtool INTERFACE
ethtool INTERFACE
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow