2.5. 连接到 Amazon Simple Storage Service (S3)
集成可以从 Amazon S3 存储桶检索数据,或者将数据复制到 Amazon S3 存储桶中。为此,请创建一个 Amazon S3 连接,然后将该连接添加到集成流中。详情请查看:
2.5.1. 创建 Amazon S3 连接
在向集成中添加 Amazon S3 连接前,您必须创建 Amazon S3 连接。
先决条件
- AWS 访问密钥。请参阅 获取 AWS 凭证。
如果您希望连接访问的存储桶已经存在,您必须知道:
- bucket 所在的区域。
- bucket 名称或 Amazon 资源名称(ARN)。
流程
- 在 Fuse Online 中,在左侧面板中,单击 Connections 以显示任何可用连接。
- 单击 Create Connection 以显示 Fuse Online 连接器。
- 点 Amazon S3 连接器。
在 Access Key 字段中,输入属于 AWS 帐户中的用户访问密钥 ID 的 Amazon 访问密钥 ID,该密钥管理您希望连接访问的存储桶。
如果您希望连接访问的存储桶不存在,则 Fuse Online 尝试开始运行集成时,它会使用此访问密钥关联的 AWS 帐户来创建存储桶。但是,如果存储桶已在其他 AWS 帐户中存在,则连接无法创建存储桶,且集成无法启动。
- 在 Secret Key 字段中,为您指定的 Amazon 访问密钥 ID 输入 Amazon secret 访问密钥。
- 在 Region 字段中,选择存储桶所在的 AWS 区域。如果连接创建存储桶,它会在所选区域中创建存储桶。
在 Bucket Name 或 Amazon Resource Name 字段中输入您要此连接的存储桶名称,或者输入存储桶的 ARN。
如果您指定的存储桶尚不存在,则连接会尝试创建带有您指定的名称的存储桶。由于 S3 允许将存储桶用作可公开访问的 URL,所以您指定的存储桶名称必须全局唯一。另外,它必须满足 S3 存储桶命名要求。
- 单击 Validate。Fuse Online 立即尝试验证连接并显示一条消息,指示验证是否成功。如果验证失败,请根据需要重新传输配置详情,然后重试。
- 验证成功后,单击 Next。
-
在 Name 字段中输入您选择的名称,可帮助您将这个连接与任何其他连接区分开来。例如,输入
Obtain S3 Data
。 -
在 Description 字段中,输入有助于了解此连接的任何信息。例如,输入
Sample S3 连接,该连接从 northeast bucket 获取数据。
- 点 Save 查看您创建的连接现在可用。如果您输入了示例名称,您会看到 Obtain S3 Data 显示为可以添加到集成的连接。
2.5.2. 从 Amazon S3 获取数据以触发集成执行
要通过从 Amazon S3 存储桶获取数据来启动集成,请将 Amazon S3 连接添加为简单集成的启动连接。
前提条件
您创建了 Amazon S3 连接。
流程
- 在左侧的 Fuse Online 面板中,单击 Integrations。
- 点 Create Integration。
- 在 Choose a connection 页面上,单击您要用来启动集成的 Amazon S3 连接。
在 Choose an action 页面中,选择您要连接执行的操作:
- Get Object 从连接访问的存储桶获取文件。在 File Name 字段中输入您要获取的文件的名称。如果指定文件不在存储桶中,则它是一个运行时错误。
轮询 Amazon S3 Bucket 定期从连接访问的存储桶中获取文件。配置此操作:
- 在 Delay 字段中,接受默认的 500 毫秒,作为轮询之间经过的时间。或者,要指定不同的轮询间隔,输入数字并选择其时间单位。
在 Maximum Objects to Retrieve 字段中,输入一次轮询操作可以获取的最大文件数。默认值为 10。
要对可获取的文件数量没有限制,请指定
0
或负整数。当 Retrieve 的最大对象 没有限制时,poll 操作会获取存储桶中的所有文件。如果存储桶包含超过指定的最大文件数,则操作会获取最近修改或创建的文件。
- 在 Prefix 字段中,可选指定评估为字符串的正则表达式。如果您指定了前缀,则此操作仅在其名称以该字符串开头时检索文件。
- 指明您是否希望 获取文件,然后从存储桶中删除这些文件。
- 配置操作后,点 Next 来指定操作的输出类型。
在 Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。
但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输出,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。
要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
application/schema+json
。 -
JSON 实例 是包含 JSON 数据的文档。文档的介质类型是
application/json
。 -
XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为
.xsd
。 -
XML 实例 是包含 XML 数据的文档。文档的文件扩展为
.xml
。
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
-
在 Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为
application/schema+json
。 在 Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定
Vendor
作为数据类型名称。在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。
- 在 Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
- 点击 Next。
结果
集成现在有一个启动连接,Fuse Online 会提示您选择完成连接。
2.5.3. 将数据添加到 Amazon S3 以完成集成
要通过将数据复制到 Amazon S3 来完成集成,请将 Amazon S3 连接添加为简单的集成结束连接。
先决条件
- 您创建了 Amazon S3 连接。
- 您正在创建或编辑简单集成,Fuse Online 会提示您选择完整的连接。
流程
- 在 Choose a connection 页面上,单击您要用来完成集成的 Amazon S3 连接。
选择您要连接执行的操作:
复制对象,将一个或多个对象添加到存储桶。
要为存储桶添加一个文件,您可以在 File Name 字段中输入其名称。
要将多个文件添加到存储桶,请不要指定文件名。在这种情况下,操作会添加它从之前集成步骤获得的所有对象。
如果您使用 poll 操作来获取多个文件,并且指定了文件名,则 Copy Object 操作仅添加从 poll 操作接收的最后一个文件。
- 删除对象 从存储桶中删除对象。在 File Name 字段中,指定您要删除的对象名称。如果指定文件不在存储桶中,则集成将继续且没有错误。
- 配置所选操作后,点 Next 来指定操作的输入类型。
在 Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。
但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输入,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。
要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
application/schema+json
。 -
JSON 实例 是包含 JSON 数据的文档。文档的介质类型是
application/json
。 -
XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为
.xsd
。 -
XML 实例 是包含 XML 数据的文档。文档的文件扩展为
.xml
。
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
-
在 Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为
application/schema+json
。 在 Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定
Vendor
作为数据类型名称。在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。
- 在 Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
- 点击 Next。
结果
连接会出现在集成视觉化的末尾。
2.5.4. 在集成过程中将数据添加到 Amazon S3 中
在集成中,若要向 Amazon S3 添加数据,请将 Amazon S3 连接添加到流中间。
前提条件
- 您创建了 Amazon S3 连接。
- 您正在创建或编辑流,Fuse Online 会提示您添加到集成。
流程
- 在流视觉化中,点您要添加 Amazon S3 连接的加号。
- 点击您要在流中使用的 Amazon S3 连接。
选择您要连接执行的操作:
复制对象,将一个或多个对象添加到存储桶。
要为存储桶添加一个文件,您可以在 File Name 字段中输入其名称。
要将多个文件添加到存储桶,请不要指定文件名。在这种情况下,操作会添加它从之前集成步骤获得的所有对象。
如果您使用 poll 操作来获取多个文件,并且指定了文件名,则 Copy Object 操作仅添加从 poll 操作接收的最后一个文件。
- 删除对象 从存储桶中删除对象。在 File Name 字段中,指定您要删除的对象名称。如果指定文件不在存储桶中,则集成将继续且没有错误。
- 配置所选操作后,点 Next 来指定操作的输入类型。
在 Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。
但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输入,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。
要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
application/schema+json
。 -
JSON 实例 是包含 JSON 数据的文档。文档的介质类型是
application/json
。 -
XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为
.xsd
。 -
XML 实例 是包含 XML 数据的文档。文档的文件扩展为
.xml
。
-
JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是
-
在 Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为
application/schema+json
。 在 Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定
Vendor
作为数据类型名称。在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。
- 在 Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
- 点击 Next。
结果
连接会出现在您添加它的流视觉化中。