第 5 章 MySQL 的 Debezium 连接器
MySQL 有一个二进制日志(binlog),它会按照它们提交到数据库的顺序记录所有操作。这包括对表模式的更改以及表中的数据更改。MySQL 使用 binlog 进行复制和恢复。
Debezium MySQL 连接器读取 binlog,为行级 INSERT
、UPDATE
和 DELETE
操作生成更改事件,并将更改事件发送到 Kafka 主题。客户端应用程序读取这些 Kafka 主题。
由于 MySQL 通常在指定时间段内清除 binlogs,因此 MySQL 连接器会为每个数据库执行初始 一致的快照。MySQL 连接器从创建快照的点读取 binlog。
有关与此连接器兼容的 MySQL 数据库版本的详情,请参考 Debezium 支持的配置页面。
使用 Debezium MySQL 连接器的信息和流程进行组织,如下所示:
5.1. Debezium MySQL 连接器的工作方式
连接器支持的 MySQL 拓扑概述可用于规划应用程序。为了最佳配置和运行 Debezium MySQL 连接器,了解连接器如何跟踪表结构、公开架构更改、执行快照并确定 Kafka 主题名称很有帮助。
详情包括在以下主题中:
5.1.1. Debezium 连接器支持的 MySQL 拓扑
Debezium MySQL 连接器支持以下 MySQL 拓扑:
- Standalone
- 使用单个 MySQL 服务器时,服务器必须启用 binlog (以及可选启用了 GTID),以便 Debezium MySQL 连接器可以监控服务器。这通常可以接受,因为二进制日志也可以用作 增量备份。在这种情况下,MySQL 连接器总是连接到并遵循此独立 MySQL 服务器实例。
- 主和副本
Debezium MySQL 连接器可以遵循主服务器之一或其中一个副本(如果该副本启用了 binlog),但连接器只看到对该服务器可见的集群中的更改。通常,这不是除多主拓扑之外的问题。
连接器在服务器的 binlog 中记录其位置,后者在集群中的每个服务器上有所不同。因此,连接器必须只遵循一个 MySQL 服务器实例。如果该服务器失败,则必须在连接器继续前重启或恢复该服务器。
- 高可用性集群
- MySQL 存在各种 高可用性解决方案,它们可以显著地容忍,并且几乎立即从问题和故障中恢复。大多数 HA MySQL 集群都使用 GTID,以便副本能够跟踪任何主服务器上的所有更改。
- 多主
网络数据库(NDB)集群复制 使用一个或多个 MySQL 副本节点,每个节点从多个主服务器复制。这是聚合多个 MySQL 集群的复制方法。这个拓扑需要使用 GTID。
Debezium MySQL 连接器可以使用这些多主 MySQL 副本作为源,只要新副本被耗尽到旧副本,就可以切换到不同的多主 MySQL 副本。也就是说,新副本具有第一个副本上看到的所有事务。即使连接器只使用一个数据库和/或表的子集,因为连接器可以在尝试重新连接到新的多主 MySQL 副本时包含或排除特定的 GTID 源,并在 binlog 中找到正确的位置。
- 托管
支持 Debezium MySQL 连接器,以使用 Amazon RDS 和 Amazon Aurora 等托管选项。
由于这些托管选项不允许全局读锁定,因此表级锁定用于创建 一致的快照。
5.1.2. Debezium MySQL 连接器如何处理数据库架构更改
当数据库客户端查询数据库时,客户端将使用数据库的当前模式。但是,数据库架构可以随时更改,这意味着连接器必须能够识别每次插入、更新或删除操作时的模式是什么。另外,连接器无法只使用当前的模式,因为连接器可能是处理在表模式更改前记录的事件相对旧的事件。
为确保正确处理 schema 更改后发生的更改,MySQL 仅包含对数据的行级更改,以及应用到数据库的 DDL 语句。当连接器读取 binlog 并位于这些 DDL 语句中时,它会解析它们并更新每个表架构的内存中表示。连接器使用此架构表示来标识每次插入、更新或删除操作时表的结构,并生成适当的更改事件。在单独的数据库架构历史记录 Kafka 主题中,连接器记录了所有 DDL 语句以及出现每个 DDL 语句的 binlog 中的位置。
当连接器在崩溃或安全停止后重启时,连接器会从特定位置(即从特定时间点)读取 binlog。连接器重新构建此时存在的表结构,方法是读取数据库模式历史记录 Kafka 主题,并将所有 DDL 语句解析为启动连接器的 binlog 中的点。
此数据库架构历史记录主题仅用于连接器。连接器可以选择 发出架构将事件更改为用于消费者应用程序的不同主题。
当 MySQL 连接器捕获表中的更改时,架构更改工具(如 gh-ost
或 pt-online-schema-change
)会应用在迁移过程中创建的帮助程序表。需要配置连接器来捕获对这些帮助程序表的更改。如果消费者不需要为帮助程序表生成的记录,则可以应用单个消息转换来过滤它们。
如需更多信息,请参阅接收 Debezium 事件记录 的主题的默认名称。
5.1.3. Debezium MySQL 连接器如何公开数据库架构更改
您可以配置 Debezium MySQL 连接器来生成模式更改事件,这些事件描述了应用于数据库中捕获的表的 schema 更改。连接器将模式更改事件改为名为 < topicPrefix>
的 Kafka 主题,其中 topicPrefix
是 topic.prefix
connector 配置属性中指定的命名空间。连接器发送到 schema 更改主题的消息包含一个有效负载,也可以包含更改事件消息的 schema。
模式更改事件消息的有效负载包括以下元素:
ddl
-
提供导致架构更改的 SQL
CREATE
、ALTER
或DROP
语句。 databaseName
-
将 DDL 语句应用到的数据库名称。
databaseName
的值充当 message 键。 pos
- 出现语句的 binlog 中的位置。
tableChanges
-
模式更改后整个表架构的结构化表示。
tableChanges
字段包含一个数组,其中包含表中的每个列的条目。由于结构化表示以 JSON 或 Avro 格式呈现数据,因此用户可以轻松地读取消息,而无需首先通过 DDL 解析程序处理它们。
对于处于捕获模式的表,连接器不仅将架构更改的历史记录存储在架构更改主题中,也存储在内部数据库架构历史记录主题中。内部数据库架构历史记录主题仅用于连接器,它不用于直接使用应用程序。确保需要有关架构的通知的应用程序只消耗了该模式的更改主题的信息。
永不对数据库架构历史记录进行分区。要使数据库架构历史记录主题正常工作,它必须维护连接器向其发出的事件记录的一致性全局顺序。
要确保主题不在分区中分割,请使用以下方法之一为主题设置分区计数:
-
如果您手动创建数据库模式历史记录主题,请指定分区计数
1
。 -
如果您使用 Apache Kafka 代理自动创建数据库架构历史记录主题,则创建主题,将 Kafka
num.partitions
配置选项 的值设置为1
。
连接器发送到其架构更改主题的消息格式处于 incubating 状态,并可能会在不通知的情况下更改。
示例:发送到 MySQL 连接器模式更改主题的消息
以下示例显示了 JSON 格式的典型架构更改消息。消息包含表模式的逻辑表示。
{ "schema": { }, "payload": { "source": { 1 "version": "2.1.4.Final", "connector": "mysql", "name": "mysql", "ts_ms": 1651535750218, 2 "snapshot": "false", "db": "inventory", "sequence": null, "table": "customers", "server_id": 223344, "gtid": null, "file": "mysql-bin.000003", "pos": 570, "row": 0, "thread": null, "query": null }, "databaseName": "inventory", 3 "schemaName": null, "ddl": "ALTER TABLE customers ADD middle_name varchar(255) AFTER first_name", 4 "tableChanges": [ 5 { "type": "ALTER", 6 "id": "\"inventory\".\"customers\"", 7 "table": { 8 "defaultCharsetName": "utf8mb4", "primaryKeyColumnNames": [ 9 "id" ], "columns": [ 10 { "name": "id", "jdbcType": 4, "nativeType": null, "typeName": "INT", "typeExpression": "INT", "charsetName": null, "length": null, "scale": null, "position": 1, "optional": false, "autoIncremented": true, "generated": true }, { "name": "first_name", "jdbcType": 12, "nativeType": null, "typeName": "VARCHAR", "typeExpression": "VARCHAR", "charsetName": "utf8mb4", "length": 255, "scale": null, "position": 2, "optional": false, "autoIncremented": false, "generated": false }, { "name": "middle_name", "jdbcType": 12, "nativeType": null, "typeName": "VARCHAR", "typeExpression": "VARCHAR", "charsetName": "utf8mb4", "length": 255, "scale": null, "position": 3, "optional": true, "autoIncremented": false, "generated": false }, { "name": "last_name", "jdbcType": 12, "nativeType": null, "typeName": "VARCHAR", "typeExpression": "VARCHAR", "charsetName": "utf8mb4", "length": 255, "scale": null, "position": 4, "optional": false, "autoIncremented": false, "generated": false }, { "name": "email", "jdbcType": 12, "nativeType": null, "typeName": "VARCHAR", "typeExpression": "VARCHAR", "charsetName": "utf8mb4", "length": 255, "scale": null, "position": 5, "optional": false, "autoIncremented": false, "generated": false } ], "attributes": [ 11 { "customAttribute": "attributeValue" } ] } } ] } }
项 | 字段名称 | 描述 |
---|---|---|
1 |
|
|
2 |
| 显示连接器处理事件的时间的可选字段。该时间基于运行 Kafka Connect 任务的 JVM 中的系统时钟。 在源对象中,ts_ms 表示数据库中更改的时间。通过将 payload.source.ts_ms 的值与 payload.ts_ms 的值进行比较,您可以确定源数据库更新和 Debezium 之间的滞后。 |
3 |
|
标识包含更改的数据库和 schema。 |
4 |
|
此字段包含负责架构更改的 DDL。 |
5 |
| 包含 DDL 命令生成的模式更改的一个或多个项目的数组。 |
6 |
| 描述更改的类型。该值是以下之一:
|
7 |
|
创建、更改或丢弃的表的完整标识符。对于表重命名,这个标识符是 < |
8 |
| 应用更改后代表表元数据。 |
9 |
| 编写表主密钥的列列表。 |
10 |
| 更改表中的每个列的元数据。 |
11 |
| 每个表更改的自定义属性元数据。 |
如需更多信息,请参阅 架构历史记录主题。
5.1.4. Debezium MySQL 连接器如何执行数据库快照
当 Debezium MySQL 连接器首次启动时,它会为 您的数据库执行初始一致的快照。以下流描述了连接器如何创建此快照。此流用于默认快照模式,即 。有关其他快照模式的详情,请查看 MySQL 连接器
snapshot.mode
配置属性。
Step | 操作 |
---|---|
1 |
获取全局读锁定,阻止其他数据库客户端 写入。 |
2 | 启动具有 可重复读取语义 的事务,以确保针对 一致的快照 执行事务中的所有后续读取。 |
3 | 读取当前的 binlog 位置。 |
4 | 读取连接器配置为捕获更改的数据库和表的 schema。 |
5 | 释放全局读取锁定。其他数据库客户端现在可以写入数据库。 |
6 |
如果适用,将 DDL 更改写入架构更改主题,包括所有必要的 |
7 |
扫描数据库表。对于每行,连接器会将 |
8 | 提交事务。 |
9 | 在连接器偏移中记录已完成的快照。 |
- 连接器重启
如果连接器在 执行初始快照时 失败、停止或重新平衡,则可以在连接器重启后执行新的快照。完成该 入侵快照后,Debebe MySQL 连接器会从 binlog 中的同一位置重启,使其不会丢失任何更新。
如果连接器停止很长时间,MySQL 可能会清除旧的 binlog 文件,连接器的位置将会丢失。如果位置丢失,连接器会恢复到 初始快照 以进行起始位置。有关 Debezium MySQL 连接器故障排除的更多提示,请参阅 出错时的行为。
- 不允许全局读取锁定
有些环境不允许全局读取锁定。如果 Debezium MySQL 连接器检测到不允许全局读锁定,则连接器将使用表级锁定,并使用此方法执行快照。这要求 Debezium 连接器的数据库用户具有
LOCK TABLES
权限。表 5.3. 使用表级锁定执行初始快照的工作流 Step 操作 1
获取表级锁定。
2
启动具有 可重复读取语义 的事务,以确保针对 一致的快照 执行事务中的所有后续读取。
3
读取并过滤数据库和表的名称。
4
读取当前的 binlog 位置。
5
读取连接器配置为捕获更改的数据库和表的 schema。
6
如果适用,将 DDL 更改写入架构更改主题,包括所有必要的
DROP…
和CREATE…
DDL 语句。7
扫描数据库表。对于每行,连接器会将
CREATE
事件发送到相关的特定于表的 Kafka 主题。8
提交事务。
9
释放表级锁定。
10
在连接器偏移中记录已完成的快照。
5.1.4.1. 临时快照
默认情况下,连接器仅在首次启动后运行初始快照操作。在正常情况下,遵循这个初始快照,连接器不会重复快照过程。连接器捕获的任何将来更改事件数据都仅通过流传输过程。
然而,在某些情况下,连接器在初始快照期间获取的数据可能会变得过时、丢失或不完整。为了提供总结表数据的机制,Debezium 包含一个执行临时快照的选项。数据库中的以下更改可能是执行临时快照:
- 连接器配置会被修改为捕获不同的表集合。
- Kafka 主题已删除,必须重建。
- 由于配置错误或某些其他问题导致数据损坏。
您可以通过启动所谓的 临时命令快照,为之前捕获的快照重新运行快照。临时快照需要使用 信号表。您可以通过向 Debezium 信号表发送信号请求来启动临时快照。
当您启动现有表的临时快照时,连接器会将内容附加到表已存在的主题中。如果删除了之前存在的主题,如果启用自动主题创建,Debezium 可以自动创建主题。https://access.redhat.com/documentation/zh-cn/red_hat_integration/2023.q2/html-single/debezium_user_guide/index#customization-of-kafka-connect-automatic-topic-creation
临时快照信号指定要包含在快照中的表。快照可以捕获数据库的整个内容,或者只捕获数据库中表的子集。另外,快照也可以捕获数据库中表内容的子集。
您可以通过向信号表发送 execute-snapshot
消息来指定要捕获的表。将 execute-snapshot
信号的类型设置为增量
,并提供快照中包含的表名称,如下表所述:
字段 | 默认 | 值 |
---|---|---|
|
|
指定您要运行的快照类型。 |
| 不适用 |
包含与要快照的表的完全限定域名匹配的正则表达式的数组。 |
| 不适用 | 可选字符串,它根据表的列指定条件,用于捕获表内容的子集。 |
触发临时快照
您可以通过在信号表中添加带有 execute-snapshot
信号类型的条目来启动临时快照。连接器处理消息后,它会开始快照操作。快照过程读取第一个和最后一个主密钥值,并使用这些值作为每个表的开头和端点。根据表中的条目数量以及配置的块大小,Debezium 将表分成块,并一次为每个块进行快照。
5.1.4.2. 增量快照
为了提供管理快照的灵活性,Debezium 包括一个补充的快照机制,称为 增量快照。增量快照依赖于 Debezium 机制 向 Debezium 连接器发送信号。
在增量快照中,而不是一次性捕获数据库的完整状态,如初始快照,Debezium 以一系列可配置的块的形式捕获每个表。您可以指定您希望快照捕获的表,以及每个块的大小。块大小决定了快照在数据库的每个获取操作期间收集的行数。增量快照的默认块大小为 1 KB。
当增量快照进行时,Debezium 使用水位线来跟踪其进度,维护它捕获的每一个表行的记录。这个阶段捕获数据的方法比标准初始快照过程提供以下优点:
- 您可以使用流化数据捕获并行运行增量快照,而不是经过发布流,直到快照完成为止。连接器会继续在整个快照过程中从更改日志捕获接近实时事件,且操作都不会阻断其他事件。
- 如果增量快照的进度中断,您可以在不丢失任何数据的情况下恢复它。在进程恢复后,快照从停止的时间开始,而不是从开始重新定义表。
-
您可以随时根据需要运行增量快照,并根据需要重复这个过程以适应数据库更新。例如,您可以在修改连接器配置后重新运行快照,以将表添加到其
table.include.list
属性中。
增量快照过程
当您运行增量快照时,Debezium 按主密钥对表进行排序,然后根据 配置的块大小 将表分成块。然后,按块使用块,然后在块中捕获每个表行。对于它捕获的每行,快照会发出 READ
事件。该事件代表了块开始快照时的行值。
当快照继续进行时,其他进程可能会继续访问数据库,从而可能会修改表记录。要反映此类更改,INSERT
、UPDATE
或 DELETE
操作会照常提交到事务日志中。同样,持续 Debezium 流过程还会继续检测这些更改事件,并将对应的更改事件记录发送到 Kafka。
Debezium 如何使用相同的主密钥解决记录间的冲突
在某些情况下,流传输进程发出的 UPDATE
或 DELETE
事件会耗尽序列。也就是说,流过程可能会发出一个事件,它会在快照捕获包含该行的 READ
事件之前修改表行。当快照最终会为行发出对应的 READ
事件时,其值已经被替换。为确保以正确的逻辑顺序处理到达序列的增量快照事件,Debezium 会使用一种缓冲区方案来解决冲突。只有在快照事件和流事件间冲突时才解决后,Debezium 会向 Kafka 发送事件记录。
快照窗口
为了帮助解决后续 READ
事件和修改同一表行的流事件之间的冲突,Debezium 采用所谓的 快照窗口。快照窗口分离了增量快照捕获指定表块的数据的时间间隔。在打开块的快照窗口前,Debebe 会遵循其常见的行为,并将事件直接从事务日志直接降级到目标 Kafka 主题。但是,从打开特定块的快照时,Debebe 会执行重复数据删除步骤,以解决具有相同主密钥的事件之间冲突。
对于每个数据收集,Debezium 会发出两种类型的事件,并将其记录存储在单个目标 Kafka 主题中。它直接从表中捕获的快照记录作为 READ
操作发出。同时,当用户继续更新数据收集中的记录,并更新事务日志以反映每个提交,Debezium 会为每个更改发出 UPDATE
或 DELETE
操作。
当快照窗口打开时,Debezium 开始处理快照块,它会将快照记录提供给内存缓冲区。在快照窗口中,缓冲区中 READ
事件的主键将与传入流事件的主键进行比较。如果没有找到匹配项,流的事件记录将直接发送到 Kafka。如果 Debezium 检测到匹配项,它会丢弃缓冲的 READ
事件,并将流的记录写入目标主题,因为流的事件逻辑地替换静态快照事件。在块的快照窗口关闭后,缓冲区仅包含没有相关事务日志事件的 READ
事件。Debezium 将这些剩余的 READ
事件发送到表的 Kafka 主题。
连接器重复每个快照块的进程。
5.1.4.3. 触发增量快照
目前,启动增量快照的唯一方法是向源数据库上的 信号发送临时快照 信号。
您可以以 SQL INSERT
查询形式向信号表提交信号。
在 Debezium 检测到信号表中的更改后,它会读取信号,并运行请求的快照操作。
您提交的查询指定要包含在快照中的表,以及可选的指定快照操作类型。目前,快照操作的唯一有效选项是默认值 增量
。
要指定快照中包含的表,请提供一个 data-collections
数组,该数组列出了用于匹配表的表或一组正则表达式,例如:
{"data-collections": ["public.MyFirstTable", "public.MySecondTable"]}
增量快照信号的 data-collections
数组没有默认值。如果 data-collections
数组为空,Debezium 会检测到不需要任何操作,且不执行快照。
如果要包含在快照中的表名称包含数据库、模式或表名称的句点(.
),要将表添加到 data-collections
数组中,您必须用双引号转义名称的每个部分。
例如,若要包含 公共
模式中存在的表,并且名为 My.Table
,请使用以下格式:" public"."My.Table
"。
先决条件
- 源数据库中存在信号数据收集。
-
信号数据收集在
signal.data.collection
属性中指定。
流程
发送 SQL 查询,将临时增量快照请求添加到信号表中:
INSERT INTO <signalTable> (id, type, data) VALUES ('<id>', '<snapshotType>', '{"data-collections": ["<tableName>","<tableName>"],"type":"<snapshotType>","additional-condition":"<additional-condition>"}');
例如,
INSERT INTO myschema.debezium_signal (id, type, data) 1 values ('ad-hoc-1', 2 'execute-snapshot', 3 '{"data-collections": ["schema1.table1", "schema2.table2"], 4 "type":"incremental"}, 5 "additional-condition":"color=blue"}'); 6
命令中的
id
、type
和data
参数的值对应于 信号表的字段。下表描述了示例中的参数:
表 5.5. 向信号表发送增量快照信号的 SQL 命令中的字段描述 项 值 描述 1
myschema.debezium_signal
指定源数据库上信号表的完全限定名称。
2
ad-hoc-1
id
参数指定分配给信号请求的id
标识符的任意字符串。
使用此字符串来标识到信号表中条目的日志消息。Debezium 不使用此字符串。相反,在快照中,Debebe 会生成自己的id
字符串作为水位信号。3
execute-snapshot
type
参数指定信号要触发的操作。
4
data-collections
信号的
data
字段所需的组件,用于指定表名称或正则表达式数组,以匹配快照中包含的表名称。
数组列出了根据完全限定名称匹配表的正则表达式,其格式与您用来指定signal.data.collection
配置属性中的连接器信号表的名称相同。5
增量
信号的
data
字段的可选类型
组件,用于指定要运行的快照操作类型。
目前,唯一有效选项是默认值增量
。
如果没有指定值,连接器将运行一个增量快照。6
additional-condition
可选字符串,它根据表的列指定条件,用于捕获表内容的子集。有关
additional-condition
参数的详情请参考带有额外条件
的临时增量快照。
带有额外条件
的临时增量快照
如果您希望快照在表中仅包含内容子集,您可以通过将 additional-condition
参数附加到快照信号来修改信号请求。
典型的快照的 SQL 查询采用以下格式:
SELECT * FROM <tableName> ....
通过添加 additional-condition
参数,您可以将 WHERE
条件附加到 SQL 查询中,如下例所示:
SELECT * FROM <tableName> WHERE <additional-condition> ....
以下示例显示了向信号表发送带有额外条件的临时增量快照请求的 SQL 查询:
INSERT INTO <signalTable> (id, type, data) VALUES ('<id>', '<snapshotType>', '{"data-collections": ["<tableName>","<tableName>"],"type":"<snapshotType>","additional-condition":"<additional-condition>"}');
例如,假设您有一个包含以下列的产品表:
-
id
(主密钥) -
color
-
quantity
如果您希望 product 表的增量快照只包含 color=blue
的数据项,您可以使用以下 SQL 语句来触发快照:
INSERT INTO myschema.debezium_signal (id, type, data) VALUES('ad-hoc-1', 'execute-snapshot', '{"data-collections": ["schema1.products"],"type":"incremental", "additional-condition":"color=blue"}');
additional-condition
参数还允许您传递基于多个列的条件。例如,使用上例中的 product 表,您可以提交查询来触发增量快照,该快照仅包含那些项目的 data =blue
和 quantity>10
:
INSERT INTO myschema.debezium_signal (id, type, data) VALUES('ad-hoc-1', 'execute-snapshot', '{"data-collections": ["schema1.products"],"type":"incremental", "additional-condition":"color=blue AND quantity>10"}');
以下示例显示了连接器捕获的增量快照事件的 JSON。
示例:增加快照事件信息
{ "before":null, "after": { "pk":"1", "value":"New data" }, "source": { ... "snapshot":"incremental" 1 }, "op":"r", 2 "ts_ms":"1620393591654", "transaction":null }
项 | 字段名称 | 描述 |
---|---|---|
1 |
|
指定要运行的快照操作类型。 |
2 |
|
指定事件类型。 |
5.1.4.4. 停止增量快照
您还可以通过向源数据库上的表发送信号来停止增量快照。您可以通过发送 SQL INSERT
查询,向表提交停止快照信号。
在 Debezium 检测到信号表中的更改后,它会读取信号,并在进行时停止增量快照操作。
您提交的查询指定了 增量
的快照操作,以及可选的、要删除的当前运行快照的表。
先决条件
- 源数据库中存在信号数据收集。
-
信号数据收集在
signal.data.collection
属性中指定。
流程
发送 SQL 查询以停止临时增量快照到信号表:
INSERT INTO <signalTable> (id, type, data) values ('<id>', 'stop-snapshot', '{"data-collections": ["<tableName>","<tableName>"],"type":"incremental"}');
例如,
INSERT INTO myschema.debezium_signal (id, type, data) 1 values ('ad-hoc-1', 2 'stop-snapshot', 3 '{"data-collections": ["schema1.table1", "schema2.table2"], 4 "type":"incremental"}'); 5
signal 命令中的
id
、type
和data
参数的值对应于 信号表的字段。下表描述了示例中的参数:
表 5.6. 向信号表发送停止增量快照信号的 SQL 命令中的字段描述 项 值 描述 1
myschema.debezium_signal
指定源数据库上信号表的完全限定名称。
2
ad-hoc-1
id
参数指定分配给信号请求的id
标识符的任意字符串。
使用此字符串来标识到信号表中条目的日志消息。Debezium 不使用此字符串。3
stop-snapshot
指定
type
参数指定信号要触发的操作。
4
data-collections
信号的
data
字段的可选组件,用于指定表名称或正则表达式数组,以匹配要从快照中删除的表名称。
数组列出了根据完全限定名称匹配表的正则表达式,其格式与您用来指定signal.data.collection
配置属性中的连接器信号表的名称相同。如果省略了data
字段的此组件,则信号将停止正在进行的整个增量快照。5
增量
信号的
data
字段所需的组件,用于指定要停止的快照操作类型。
目前,唯一有效选项是增量的
。
如果没有指定类型
值,则信号无法停止增量快照。
5.1.5. 接收 Debezium MySQL 更改事件记录的 Kafka 主题默认名称
默认情况下,MySQL 连接器将表中的所有 INSERT
、UPDATE
和 DELETE
操作的更改事件写入特定于该表的单个 Apache Kafka 主题。
连接器使用以下惯例命名更改事件主题:
topicPrefix.databaseName.tableName
假设 fulfillment
是主题前缀,inventory
是数据库名称,数据库包含名为 orders
、customer 和 products
的表。Debezium MySQL 连接器将事件发送到三个 Kafka 主题,一个用于数据库中的每个表:
fulfillment.inventory.orders fulfillment.inventory.customers fulfillment.inventory.products
以下列表提供默认名称组件的定义:
- topicPrefix
-
由
topic.prefix
连接器配置属性指定的主题前缀。 - schemaName
- 在其中操作的 schema 的名称。
- tableName
- 操作发生的表的名称。
连接器应用类似的命名约定来标记其内部数据库架构历史记录主题、架构更改主题 以及 事务元数据主题。
如果默认主题名称不满足您的要求,您可以配置自定义主题名称。要配置自定义主题名称,您可以在逻辑主题路由 SMT 中指定正则表达式。有关使用逻辑主题路由 SMT 自定义主题命名的更多信息,请参阅 主题路由。
事务元数据
Debezium 可以生成代表事务边界的事件,并增强数据更改事件消息。
Debezium 仅在部署连接器后为发生的事务注册并接收元数据。部署连接器前发生的事务元数据。
Debezium 为每个事务生成 BEGIN
和 END
分隔符的事务边界事件。事务边界事件包含以下字段:
status
-
BEGIN
或END
。 id
- 唯一事务标识符的字符串表示。
ts_ms
-
数据源上事务边界事件(
BEGIN
或END
事件)的时间。如果数据源没有向 Debezium 提供事件时间,则该字段代表 Debezium 处理事件的时间。 event_count
(用于END
事件)- 事务发出的事件总数。
data_collections
(用于END
事件)-
data_collection
和event_count
元素的一组对,指示连接器为来自数据收集的更改发出的事件数。
示例
{ "status": "BEGIN", "id": "0e4d5dcd-a33b-11ea-80f1-02010a22a99e:10", "ts_ms": 1486500577125, "event_count": null, "data_collections": null } { "status": "END", "id": "0e4d5dcd-a33b-11ea-80f1-02010a22a99e:10", "ts_ms": 1486500577691, "event_count": 2, "data_collections": [ { "data_collection": "s1.a", "event_count": 1 }, { "data_collection": "s2.a", "event_count": 1 } ] }
除非通过 topic.transaction
选项覆盖,否则连接器会将事务事件发送到 < topic.prefix>
.transaction
主题。
更改数据事件增强
当启用事务元数据时,可通过新的 事务
字段增强数据消息 Envelope
。此字段以字段复合的形式提供有关每个事件的信息:
id
- 唯一事务标识符的字符串表示。
total_order
- 事件在事务生成的所有事件的绝对路径。
data_collection_order
- 事件在事务发送的所有事件中每个数据收集位置。
以下是消息的示例:
{ "before": null, "after": { "pk": "2", "aa": "1" }, "source": { ... }, "op": "c", "ts_ms": "1580390884335", "transaction": { "id": "0e4d5dcd-a33b-11ea-80f1-02010a22a99e:10", "total_order": "1", "data_collection_order": "1" } }
对于没有启用 GTID 的系统,事务标识符会使用 binlog 文件名和 binlog 位置的组合来构建。例如,如果与事务 BEGIN 事件对应的 binlog 文件名和位置分别是 mysql-bin.000002 和 1913,则 Debezium 构建的事务标识符将是 file=mysql-bin.000002,pos=1913
。