第 3 章监控

拥有正在运行的集群后，您可以开始监控存储集群，以确保 Ceph monitor 和 OSD 守护进程正在运行。Ceph 存储集群客户端必须连接到 Ceph 监控器，并接收 Ceph 集群映射的最新版本，然后才能将数据读取和写入到存储集群的 Ceph 池。因此，监控集群必须在 Ceph 客户端可以读取和写入数据之前就群集状态达成一致。

Ceph OSD 必须对Primary OSD 上的放置组进行对等，以及次要 OSD 上的 PG 副本。如果出现故障，对等将反映 active + clean 状态以外的内容。

如果存储集群具有多个 monitor，这是生产 Ceph 存储集群高可用性所需的。在读取和/或写入数据之前，您应该在启动 Ceph 存储集群后检查 Ceph monitor 仲裁状态。当多个监视器正在运行时，必须存在仲裁。您还应定期检查 Ceph monitor 状态，以确保它们正在运行。如果 monitor 出现问题，阻止对存储集群状态达成一致，则故障可能会阻止 Ceph 客户端读取和写入数据。

要显示 monitor map，请执行以下操作：
```
ceph mon stat
```
```
# ceph mon stat
```
Copy to Clipboard Toggle word wrap
或者
```
ceph mon dump
```
```
# ceph mon dump
```
Copy to Clipboard Toggle word wrap

要检查存储集群的仲裁状态，请执行以下操作：

ceph quorum_status -f json-pretty

# ceph quorum_status -f json-pretty

Copy to Clipboard

Toggle word wrap

Ceph 将返回仲裁状态。例如，由三个监视器组成的 Ceph 存储集群可能会返回以下内容：

{ "election_epoch": 10,
  "quorum": [
        0,
        1,
        2],
  "monmap": { "epoch": 1,
      "fsid": "444b489c-4f16-4b75-83f0-cb8097468898",
      "modified": "2011-12-12 13:28:27.505520",
      "created": "2011-12-12 13:28:27.505520",
      "mons": [
            { "rank": 0,
              "name": "a",
              "addr": "127.0.0.1:6789\/0"},
            { "rank": 1,
              "name": "b",
              "addr": "127.0.0.1:6790\/0"},
            { "rank": 2,
              "name": "c",
              "addr": "127.0.0.1:6791\/0"}
           ]
    }
}

{ "election_epoch": 10,
  "quorum": [
        0,
        1,
        2],
  "monmap": { "epoch": 1,
      "fsid": "444b489c-4f16-4b75-83f0-cb8097468898",
      "modified": "2011-12-12 13:28:27.505520",
      "created": "2011-12-12 13:28:27.505520",
      "mons": [
            { "rank": 0,
              "name": "a",
              "addr": "127.0.0.1:6789\/0"},
            { "rank": 1,
              "name": "b",
              "addr": "127.0.0.1:6790\/0"},
            { "rank": 2,
              "name": "c",
              "addr": "127.0.0.1:6791\/0"}
           ]
    }
}

Copy to Clipboard

Toggle word wrap

3.1.7. 使用管理套接字
复制链接

使用管理 socket 文件直接与给定守护进程交互。例如，套接字可让您：

在运行时列出 Ceph 配置
在运行时直接设置配置值，而不在 monitor 上中继。这在监控器为 down 时非常有用。
转储历史操作
转储操作优先级队列状态
在不重启的情况下转储操作
转储性能计数器

此外，在对 monitor 或 OSD 相关的问题进行故障排除时，使用套接字也很有帮助。详情请参阅红帽 Ceph 存储 3 故障排除指南。

使用套接字：

ceph daemon <type>.<id> <command>

ceph daemon <type>.<id> <command>

Copy to Clipboard

Toggle word wrap

替换：

<type> 使用 Ceph 守护进程的类型（mon、osd、mds）。
<id> 使用守护进程 ID
<command> 使用命令来运行。使用 help 列出给定守护进程的可用命令。

例如，要查看名为 mon.0 的 monitor 状态：

ceph daemon mon.0 mon_status

# ceph daemon mon.0 mon_status

Copy to Clipboard

Toggle word wrap

或者，也可使用守护进程的套接字文件来指定守护进程。

ceph daemon /var/run/ceph/<socket-file> <command>

ceph daemon /var/run/ceph/<socket-file> <command>

Copy to Clipboard

Toggle word wrap

例如，要查看名为 osd.2 的 OSD 的状态：

ceph daemon /var/run/ceph/ceph-osd.2.asok status

# ceph daemon /var/run/ceph/ceph-osd.2.asok status

Copy to Clipboard

Toggle word wrap

列出 Ceph 进程的所有套接字文件：

ls /var/run/ceph

$ ls /var/run/ceph

Copy to Clipboard

Toggle word wrap

3.1.8. 检查 OSD 状态
复制链接

OSD 的状态可以是集群中的 in，或者来自集群 out，它的状态为 up 和 running、up 或它已停机且未在运行，或者 down。如果 OSD 是 up，则可以是 in 存储集群，数据可以被读取和写入，或者是存储集群的 out。如果是 in 集群，并且最近移动了集群的 out，Ceph 会将放置组迁移到其他 OSD。如果 OSD 是集群的 out，CRUSH 不会分配 PG 到 OSD。如果 OSD 是 down，它也应是 out。

注意

如果 OSD 是 down 和 in，则会出现一个问题，集群不会处于健康状态。

如果您执行 ceph health、ceph -s 或 ceph -w 等命令，您可能会注意到集群并不总是回显 HEALTH OK。不要 panic。对于 OSD，您应该预计集群不会在几个预期情况下回显 HEALTH OK ：

您尚未启动集群，也不会响应。
您刚刚启动或重新启动集群，但还没有就绪，因为 PG 已创建好，并且 OSD 正在对等。
您刚刚添加或删除了 OSD。
您刚刚修改了 cluster map。

监控 OSD 的一个重要方面是确保集群启动并运行 in 集群的所有 OSD 都为 up 并运行。要查看所有 OSD 是否都在运行，请执行：

ceph osd stat

# ceph osd stat

Copy to Clipboard

Toggle word wrap

或者

ceph osd dump

# ceph osd dump

Copy to Clipboard

Toggle word wrap

结果应该告诉您 map epoch eNNNN、OSD 总数 x、数量为 y、以及 up 的数量是 z ： in

eNNNN: x osds: y up, z in

eNNNN: x osds: y up, z in

Copy to Clipboard

Toggle word wrap

如果 in 集群的 OSD 数量超过 up OSD 的数量，请执行以下命令来识别未运行的 ceph-osd 守护进程：

ceph osd tree

# ceph osd tree

Copy to Clipboard

Toggle word wrap

输出示例：

id    weight  type name   up/down reweight

# id    weight  type name   up/down reweight
-1  3   pool default
-3  3       rack mainrack
-2  3           host osd-host
0   1               osd.0   up  1
1   1               osd.1   up  1
2   1               osd.2   up  1

Copy to Clipboard

Toggle word wrap

提示

通过能够按照设计良好的 CRUSH 层次结构搜索，可以帮助您更快地识别物理位置，从而对存储集群进行故障排除。

如果 OSD 为 down，请连接到节点并启动它。您可以使用红帽存储控制台重启 OSD 节点，也可以使用命令行，例如：

systemctl start ceph-osd@<osd_id>

# systemctl start ceph-osd@<osd_id>

Copy to Clipboard

Toggle word wrap

第 3 章监控

3.1. 高级监控
复制链接

3.1.1. 互动模式
复制链接

3.1.2. 检查集群健康状况
复制链接

3.1.3. 监控集群
复制链接

3.1.4. 检查集群的使用情况统计信息
复制链接

3.1.5. 检查集群状态
复制链接

3.1.6. 检查 monitor 状态
复制链接

3.1.7. 使用管理套接字
复制链接

3.1.8. 检查 OSD 状态
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 3 章 监控

3.1. 高级监控复制链接链接已复制到粘贴板!

3.1.1. 互动模式复制链接链接已复制到粘贴板!

3.1.2. 检查集群健康状况复制链接链接已复制到粘贴板!

3.1.3. 监控集群复制链接链接已复制到粘贴板!

3.1.4. 检查集群的使用情况统计信息复制链接链接已复制到粘贴板!

3.1.5. 检查集群状态复制链接链接已复制到粘贴板!

3.1.6. 检查 monitor 状态复制链接链接已复制到粘贴板!

3.1.7. 使用管理套接字复制链接链接已复制到粘贴板!

3.1.8. 检查 OSD 状态复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 3 章监控

3.1. 高级监控
复制链接

3.1.1. 互动模式
复制链接

3.1.2. 检查集群健康状况
复制链接

3.1.3. 监控集群
复制链接

3.1.4. 检查集群的使用情况统计信息
复制链接

3.1.5. 检查集群状态
复制链接

3.1.6. 检查 monitor 状态
复制链接

3.1.7. 使用管理套接字
复制链接

3.1.8. 检查 OSD 状态
复制链接