关于大数据:BitSail-issue-持续更新中快来挑战赢取千元礼品

26次阅读

共计 1418 个字符,预计需要花费 4 分钟才能阅读完成。

背景介绍

近期,BitSail 社区公布了 Contributor 激励打算第一期,蕴含泛滥 issue,吸引了很多热衷开源的小伙伴的退出,详情可查看👉https://mp.weixin.qq.com/s/Gk…

Issue 介绍

为了扩大 BitSail 的应用场景、适配用户的需要,BitSail 社区新增了十余 issue 来优化 BitSail 的性能。这次的 issue 蕴含了类型系统优化、connector 性能反对、测试笼罩等方面,欢送大家前来反对奉献!

上面介绍局部新增 issue,这些 issue 在各方面对 BitSail 进行了优化。

1. 应用优化:Mysql Reader 反对 schema 发现
用户在应用 Mysql reader 时,须要在工作配置中指定 schema,即要读取列的列名和类型。Mysql reader 会依据用户配置拼出一个 select 语句,用以从 mysql 拉取数据。

这种形式的益处在于能够灵便地抉择 mysql 中的局部列进行读取。然而在理论场景中,用户往往须要读取 mysql 表中的全部列,这种时候 schema 配置就成为了一种累赘。下图展现了一个读取蕴含 4 列数据 mysql 表的 schema 配置。

"job":{
    "reader":{
        // 仅展现 schema 配置局部
        "columns":[
            {
                "name":"id",
                "type":"bigint"
            },
            {
                "name":"name",
                "type":"varchar"
            },
            {
                "name":"int_info",
                "type":"int"
            },
            {
                "name":"double_info",
                "type":"double"
            },
            {
                "name":"bytes_info",
                "type":"binary"
            }
        ]
    }
}

因而,本次 BitSail 社区新增一个 issue 用于优化 Mysql reader 的 schema 配置,心愿能在用户未配置 schema 信息时间接应用 mysql 表的元信息。

https://github.com/bytedance/…

相似的,社区也新增了一个 issue 用于反对在 Hive writer 中主动获取 schema。

https://github.com/bytedance/…

2. 接口优化:批场景下的分片调配反对为了反对多并发读取数据,目前支流做法是将数据源分成多个分片后调配给多个子工作并发读取。

BitSail 定义了 SourceSplitCoordinator 接口用以反对这样的分片过程。在批式场景中,数据源往往是动态的,reader 通过连贯数据源生成所有分片后,即可制订一份分片的散发打算。

本次社区新增了一个 issue 用于构建一个反对如上批式场景的 SourceSplitCoordinator。https://github.com/bytedance/…

3. 文档优化:并行度计算 BitSail 反对通过工作配置设置 reader 和 writer 的并行度,然而目前没有具体的文档进行阐明。

因而本次新增一个 issue 心愿能增加文档介绍 BitSail 的并行度设置和计算。目前所有文档都会在 BitSail 主页进行展现。
https://bytedance.github.io/b…

致谢

BitSail 社区目前曾经有多位贡献者,在此也对各位贡献者和其余敌人由衷地表示感谢。期待更多开发者、技术爱好者独特建设 BitSail 社区!

更多激励打算工作请关注 issue 链接:https://github.com/bytedance/…

正文完
 0