关于数据库:Apache-Doris-Sink-Connector部署指南

在当今数据驱动的时代,如何高效、精确地解决和剖析大数据成为了各行各业面临的独特挑战。Apache Doris,作为一个基于 MPP 架构的高性能、实时的剖析型数据库,为大规模数据分析提供了弱小的反对。

在当今数据驱动的时代,如何高效、精确地解决和剖析大数据成为了各行各业面临的独特挑战。Apache Doris,作为一个基于 MPP 架构的高性能、实时的剖析型数据库,为大规模数据分析提供了弱小的反对。

随着Doris Connector的推出,开发者当初能够更加便捷地将数据实时导入Doris,无论是流数据还是批量数据。本指南将疏导您实现Doris及其数据接管连接器的部署过程。

Doris

Doris数据接管连接器反对流式和批量模式,使得数据向Doris的传输变得简略高效。它的外部实现采纳了批处理缓存和流加载导入,确保了数据处理的灵活性和可靠性。

反对的版本

  • 准确一次 & CDC 反对 Doris 版本 >= 1.1.x
  • 反对数组数据类型 Doris 版本 >= 1.2.x
  • 将在 Doris 版本 2.x 反对映射数据类型

:::

要害个性

  • [x] 准确一次
  • [x] CDC

配置项

名称 类型 是否必须 默认值
fenodes string
username string
password string
table.identifier string
sink.label-prefix string
sink.enable-2pc bool true
sink.enable-delete bool false
doris.config map

fenodes [string]

Doris 集群的 fenodes 地址,格局为 "fe_ip:fe_http_port, ..."

username [string]

Doris 用户名

password [string]

Doris 用户明码

table.identifier [string]

Doris 表名

sink.label-prefix [string]

流加载导入时应用的标签前缀。在 2pc 场景中,须要全局唯一性以确保 SeaTunnel 的 EOS 语义。

sink.enable-2pc [bool]

是否启用两阶段提交(2pc),默认为 true,以确保准确一次语义。无关两阶段提交的更多信息,请参考这里。

sink.enable-delete [bool]

是否启用删除性能。此选项要求 Doris 表启用批量删除性能(0.15+ 版本默认启用),且仅反对惟一模型。更多详情请参考此链接:

https://doris.apache.org/docs/dev/data-operate/update-delete/…

doris.config [map]

流加载的 data_desc 参数,更多详情请参考此链接:

https://doris.apache.org/docs/dev/sql-manual/sql-reference/Da…

反对的导入数据格式

反对的格局包含 CSV 和 JSON。默认值:CSV

示例

应用 JSON 格局导入数据

sink {
    Doris {
        fenodes = "e2e_dorisdb:8030"
        username = root
        password = ""
        table.identifier = "test.e2e_table_sink"
        sink.enable-2pc = "true"
        sink.label-prefix = "test_json"
        doris.config = {
            format="json"
            read_json_by_line="true"
        }
    }
}

应用 CSV 格局导入数据

sink {
    Doris {
        fenodes = "e2e_dorisdb:8030"
        username = root
        password = ""
        table.identifier = "test.e2e_table_sink"
        sink.enable-2pc = "true"
        sink.label-prefix = "test_csv"
        doris.config = {
          format = "csv"
          column_separator = ","
        }
    }
}

更新日志

2.3.0-beta 2022-10-20
增加 Doris 数据接管连接器

下一版本

[Improve] 更改 Doris 配置前缀 3856

[Improve] 重构一些 Doris 数据接管代码以及反对 2pc 和 CDC 4235

tip

PR 4235 is an incompatible modification to PR 3856. Please refer to PR 4235 to use the new Doris connect.

随着大数据技术的不断进步,Apache Doris及其数据接管连接器将在数据处理和剖析畛域施展越来越重要的作用。通过遵循本指南,您将可能轻松部署Doris数据接管连接器,无效地将数据导入Doris,为数据驱动的决策提供强有力的反对。咱们期待看到开发者和企业通过应用Doris解锁数据分析的有限后劲。

随着Doris Connector的推出,开发者当初能够更加便捷地将数据实时导入Doris,无论是流数据还是批量数据。本指南将疏导您实现Doris及其数据接管连接器的部署过程。

Doris

Doris数据接管连接器反对流式和批量模式,使得数据向Doris的传输变得简略高效。它的外部实现采纳了批处理缓存和流加载导入,确保了数据处理的灵活性和可靠性。

反对的版本

  • 准确一次 & CDC 反对 Doris 版本 >= 1.1.x
  • 反对数组数据类型 Doris 版本 >= 1.2.x
  • 将在 Doris 版本 2.x 反对映射数据类型

:::

要害个性

  • [x] 准确一次
  • [x] CDC

配置项

名称 类型 是否必须 默认值
fenodes string
username string
password string
table.identifier string
sink.label-prefix string
sink.enable-2pc bool true
sink.enable-delete bool false
doris.config map

fenodes [string]

Doris 集群的 fenodes 地址,格局为 "fe_ip:fe_http_port, ..."

username [string]

Doris 用户名

password [string]

Doris 用户明码

table.identifier [string]

Doris 表名

sink.label-prefix [string]

流加载导入时应用的标签前缀。在 2pc 场景中,须要全局唯一性以确保 SeaTunnel 的 EOS 语义。

sink.enable-2pc [bool]

是否启用两阶段提交(2pc),默认为 true,以确保准确一次语义。无关两阶段提交的更多信息,请参考这里。

sink.enable-delete [bool]

是否启用删除性能。此选项要求 Doris 表启用批量删除性能(0.15+ 版本默认启用),且仅反对惟一模型。更多详情请参考此链接:

https://doris.apache.org/docs/dev/data-operate/update-delete/…

doris.config [map]

流加载的 data_desc 参数,更多详情请参考此链接:

https://doris.apache.org/docs/dev/sql-manual/sql-reference/Da…

反对的导入数据格式

反对的格局包含 CSV 和 JSON。默认值:CSV

示例

应用 JSON 格局导入数据

sink {
    Doris {
        fenodes = "e2e_dorisdb:8030"
        username = root
        password = ""
        table.identifier = "test.e2e_table_sink"
        sink.enable-2pc = "true"
        sink.label-prefix = "test_json"
        doris.config = {
            format="json"
            read_json_by_line="true"
        }
    }
}

应用 CSV 格局导入数据

sink {
    Doris {
        fenodes = "e2e_dorisdb:8030"
        username = root
        password = ""
        table.identifier = "test.e2e_table_sink"
        sink.enable-2pc = "true"
        sink.label-prefix = "test_csv"
        doris.config = {
          format = "csv"
          column_separator = ","
        }
    }
}

更新日志

2.3.0-beta 2022-10-20
增加 Doris 数据接管连接器

下一版本

[Improve] 更改 Doris 配置前缀 3856

[Improve] 重构一些 Doris 数据接管代码以及反对 2pc 和 CDC 4235

tip

PR 4235 is an incompatible modification to PR 3856. Please refer to PR 4235 to use the new Doris connect.

随着大数据技术的不断进步,Apache Doris及其数据接管连接器将在数据处理和剖析畛域施展越来越重要的作用。通过遵循本指南,您将可能轻松部署Doris数据接管连接器,无效地将数据导入Doris,为数据驱动的决策提供强有力的反对。咱们期待看到开发者和企业通过应用Doris解锁数据分析的有限后劲。

本文由 白鲸开源科技 提供公布反对!

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理