2.5. 连接到 Amazon Simple Storage Service (S3)


集成可以从 Amazon S3 存储桶检索数据,或者将数据复制到 Amazon S3 存储桶中。为此,请创建一个 Amazon S3 连接,然后将该连接添加到集成流中。详情请查看:

2.5.1. 创建 Amazon S3 连接

在向集成中添加 Amazon S3 连接前,您必须创建 Amazon S3 连接。

先决条件

  • AWS 访问密钥。请参阅 获取 AWS 凭证
  • 如果您希望连接访问的存储桶已经存在,您必须知道:

    • bucket 所在的区域。
    • bucket 名称或 Amazon 资源名称(ARN)。

流程

  1. 在 Fuse Online 中,在左侧面板中,单击 Connections 以显示任何可用连接。
  2. 单击 Create Connection 以显示 Fuse Online 连接器。
  3. Amazon S3 连接器。
  4. Access Key 字段中,输入属于 AWS 帐户中的用户访问密钥 ID 的 Amazon 访问密钥 ID,该密钥管理您希望连接访问的存储桶。

    如果您希望连接访问的存储桶不存在,则 Fuse Online 尝试开始运行集成时,它会使用此访问密钥关联的 AWS 帐户来创建存储桶。但是,如果存储桶已在其他 AWS 帐户中存在,则连接无法创建存储桶,且集成无法启动。

  5. Secret Key 字段中,为您指定的 Amazon 访问密钥 ID 输入 Amazon secret 访问密钥。
  6. Region 字段中,选择存储桶所在的 AWS 区域。如果连接创建存储桶,它会在所选区域中创建存储桶。
  7. Bucket Name 或 Amazon Resource Name 字段中输入您要此连接的存储桶名称,或者输入存储桶的 ARN。

    如果您指定的存储桶尚不存在,则连接会尝试创建带有您指定的名称的存储桶。由于 S3 允许将存储桶用作可公开访问的 URL,所以您指定的存储桶名称必须全局唯一。另外,它必须满足 S3 存储桶命名要求

  8. 单击 Validate。Fuse Online 立即尝试验证连接并显示一条消息,指示验证是否成功。如果验证失败,请根据需要重新传输配置详情,然后重试。
  9. 验证成功后,单击 Next
  10. Name 字段中输入您选择的名称,可帮助您将这个连接与任何其他连接区分开来。例如,输入 Obtain S3 Data
  11. Description 字段中,输入有助于了解此连接的任何信息。例如,输入 Sample S3 连接,该连接从 northeast bucket 获取数据。
  12. Save 查看您创建的连接现在可用。如果您输入了示例名称,您会看到 Obtain S3 Data 显示为可以添加到集成的连接。

2.5.2. 从 Amazon S3 获取数据以触发集成执行

要通过从 Amazon S3 存储桶获取数据来启动集成,请将 Amazon S3 连接添加为简单集成的启动连接。

前提条件

您创建了 Amazon S3 连接。

流程

  1. 在左侧的 Fuse Online 面板中,单击 Integrations
  2. Create Integration
  3. Choose a connection 页面上,单击您要用来启动集成的 Amazon S3 连接。
  4. Choose an action 页面中,选择您要连接执行的操作:

    • Get Object 从连接访问的存储桶获取文件。在 File Name 字段中输入您要获取的文件的名称。如果指定文件不在存储桶中,则它是一个运行时错误。
    • 轮询 Amazon S3 Bucket 定期从连接访问的存储桶中获取文件。配置此操作:

      1. Delay 字段中,接受默认的 500 毫秒,作为轮询之间经过的时间。或者,要指定不同的轮询间隔,输入数字并选择其时间单位。
      2. Maximum Objects to Retrieve 字段中,输入一次轮询操作可以获取的最大文件数。默认值为 10。

        要对可获取的文件数量没有限制,请指定 0 或负整数。当 Retrieve 的最大对象 没有限制时,poll 操作会获取存储桶中的所有文件。

        如果存储桶包含超过指定的最大文件数,则操作会获取最近修改或创建的文件。

      3. Prefix 字段中,可选指定评估为字符串的正则表达式。如果您指定了前缀,则此操作仅在其名称以该字符串开头时检索文件。
      4. 指明您是否希望 获取文件,然后从存储桶中删除这些文件
  5. 配置操作后,点 Next 来指定操作的输出类型。
  6. Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。

    但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输出,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。

    要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:

    • JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是 application/schema+json
    • JSON 实例 是包含 JSON 数据的文档。文档的介质类型是 application/json
    • XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为 .xsd
    • XML 实例 是包含 XML 数据的文档。文档的文件扩展为 .xml
  7. Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为 application/schema+json
  8. Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定 Vendor 作为数据类型名称。

    在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。

  9. Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
  10. 点击 Next

结果

集成现在有一个启动连接,Fuse Online 会提示您选择完成连接。

2.5.3. 将数据添加到 Amazon S3 以完成集成

要通过将数据复制到 Amazon S3 来完成集成,请将 Amazon S3 连接添加为简单的集成结束连接。

先决条件

  • 您创建了 Amazon S3 连接。
  • 您正在创建或编辑简单集成,Fuse Online 会提示您选择完整的连接。

流程

  1. Choose a connection 页面上,单击您要用来完成集成的 Amazon S3 连接。
  2. 选择您要连接执行的操作:

    • 复制对象,将一个或多个对象添加到存储桶。

      要为存储桶添加一个文件,您可以在 File Name 字段中输入其名称。

      要将多个文件添加到存储桶,请不要指定文件名。在这种情况下,操作会添加它从之前集成步骤获得的所有对象。

      如果您使用 poll 操作来获取多个文件,并且指定了文件名,则 Copy Object 操作仅添加从 poll 操作接收的最后一个文件。

    • 删除对象 从存储桶中删除对象。在 File Name 字段中,指定您要删除的对象名称。如果指定文件不在存储桶中,则集成将继续且没有错误。
  3. 配置所选操作后,点 Next 来指定操作的输入类型。
  4. Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。

    但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输入,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。

    要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:

    • JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是 application/schema+json
    • JSON 实例 是包含 JSON 数据的文档。文档的介质类型是 application/json
    • XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为 .xsd
    • XML 实例 是包含 XML 数据的文档。文档的文件扩展为 .xml
  5. Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为 application/schema+json
  6. Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定 Vendor 作为数据类型名称。

    在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。

  7. Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
  8. 点击 Next

结果

连接会出现在集成视觉化的末尾。

2.5.4. 在集成过程中将数据添加到 Amazon S3 中

在集成中,若要向 Amazon S3 添加数据,请将 Amazon S3 连接添加到流中间。

前提条件

  • 您创建了 Amazon S3 连接。
  • 您正在创建或编辑流,Fuse Online 会提示您添加到集成。

流程

  1. 在流视觉化中,点您要添加 Amazon S3 连接的加号。
  2. 点击您要在流中使用的 Amazon S3 连接。
  3. 选择您要连接执行的操作:

    • 复制对象,将一个或多个对象添加到存储桶。

      要为存储桶添加一个文件,您可以在 File Name 字段中输入其名称。

      要将多个文件添加到存储桶,请不要指定文件名。在这种情况下,操作会添加它从之前集成步骤获得的所有对象。

      如果您使用 poll 操作来获取多个文件,并且指定了文件名,则 Copy Object 操作仅添加从 poll 操作接收的最后一个文件。

    • 删除对象 从存储桶中删除对象。在 File Name 字段中,指定您要删除的对象名称。如果指定文件不在存储桶中,则集成将继续且没有错误。
  4. 配置所选操作后,点 Next 来指定操作的输入类型。
  5. Select Type 字段中,如果不需要知道数据类型,则接受 类型规格, 然后点 Next。您不需要遵循这些指令的其余部分。

    但是,建议使用结构化的数据类型。例如,如果要在数据映射映射映射器步骤中的连接输入,您必须指定数据类型。数据映射器无法显示非结构化数据的字段。

    要指定数据类型,点 Select Type 字段,并选择以下之一作为 schema 类型:

    • JSON 模式是 描述 JSON 数据结构的文档。文档的介质类型是 application/schema+json
    • JSON 实例 是包含 JSON 数据的文档。文档的介质类型是 application/json
    • XML 模式 是一个描述 XML 数据结构的文档。文档的文件扩展为 .xsd
    • XML 实例 是包含 XML 数据的文档。文档的文件扩展为 .xml
  6. Definition 输入框中,粘贴符合您选择的 schema 类型的定义。例如,如果您选择 JSON 模式,您将粘贴 JSON 模式文件的内容,该文件的介质类型为 application/schema+json
  7. Data Type Name 字段中输入您为数据类型选择的名称。例如,如果您要为供应商指定 JSON 模式,您可以指定 Vendor 作为数据类型名称。

    在创建或编辑使用指定此类型的连接时,您将看到此数据类型名称。Fuse Online 在集成视觉化和数据映射程序中显示类型名称。

  8. Data Type Description 字段中,提供可帮助您区分此类型的信息。当您将鼠标悬停在处理此类型的步骤上时,此描述会出现在数据映射程序中。
  9. 点击 Next

结果

连接会出现在您添加它的流视觉化中。

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.