关于数据库:我们毕业啦Hacking-Camp-2021-结营六大生态项目进入新阶段

3次阅读

共计 3648 个字符,预计需要花费 10 分钟才能阅读完成。

11 月 7 日,由 TiDB 社区 X 经纬中国联结主办,初心资本、明势资本、纪源资本、JuiceFS 资助的 Hacking Camp 2021 生态进行了答辩会,论述了我的项目的阶段性成绩和对将来工作的瞻望。

Hacking Camp 的我的项目有些是来自于 TiDB Hackathon 的明星我的项目,还有一些是来自生态搭档的新创意。本期 Hacking Camp 以生态为主题,帮忙合作伙伴实现我的项目的孵化,参加流动的六个我的项目都根本实现了既定目标,在毕业之后将持续欠缺相干性能的改良,迭代新版本至更稳固,期间导师也将持续为我的项目提供领导意见,帮忙我的项目打磨。

本次 Hacking Camp 参加问难的我的项目有:
以 TiKV 作为元数据引擎的分布式 POSIX 文件系统 JuiceFS

基于 TiDB 实现提供 Serverlessdb 服务的 Serverlessdb for HTAP

优化 PG 在 TiDB 上的兼容性的 TiDB for PostgreSQL

TiDB 在大数据畛域中的一站式解决方案 TiBigData

将 TiKV 作为后端存储的 HugeGraph

将 TiDB 作为数据上游的 Doris Connector

评委从我的项目完成度、利用价值、对 TiDB 生态奉献和问难完成度这几个方面进行评审,最终 ServerlessDB for HTAP 取得了评审团统一高分,夺得「优良毕业生」和「最佳利用」两个奖项。

特别感谢以下几位评审:
明势资本执行经理徐之浩、Flomesh CTO & 联结创始人刘洋、TiDB Team Tech Leader 王聪、PingCAP 研发主管张建、TiKV Maintainer 李建俊

让咱们一起来看看我的项目的毕业成绩吧~

JuiceFS:

JuiceFS 是一个云原生的 POSIX 分布式文件系统,联合 TiKV 作为数据元引擎,JuiceFS 能够提供百亿级文件规模和 EB 级的数据存储能力,在大规模下仍然放弃延时稳固。在元数据操作性能测试中,TiKV 引擎的均匀耗时约为 Redis 的 2~4 倍,略优于本地 MySQL。

目前次要性能都已开发结束并于 V0.16 版本公布,且通过了 pjdfstest 测试。已有用户在测试以及生产环境中应用。JuiceFS 将来将把 TiKV 作为大规模生产环境的首推元数据引擎,在保障兼容的状况下,踊跃引进 TiKV 的新个性。

ServerlessDB for HTAP

我的项目最终目标是要把云数据库服务变成黑盒子,让利用开发者只须要专一于业务如何转化成 SQL,用户再也不必操心数据量、业务负载、SQL 类型是 AP 还是 TP 等这些和业务不相干的事件。

开发内容

业务负载模块:

业务负载模块评估以后提供服务的资源与以后业务负载是否匹配,建设业务负载模型,用于决策扩缩容。

Serverless 模块:

Serverless 模块会实时查看所有计算节点的 CPU 使用率,以及底层存储容量,触发计算 / 存储资源的扩缩容。

数据库中间件:

中间件用于解耦用户连贯和后盾数据库服务节点,这样即便用户应用连接池,扩容后,中间件也能把流量平衡打到所有的新增节点中。

规定零碎:

通过规定零碎,能够固定特定工夫范畴内的资源分配。通过规定设置,流量增长前,把资源提前调配好

serverless 服务编排模块:

过服务编排模块,实现 TiDB 集群的创立、开释及动静调整 TiDB 组件的扩缩;实现 k8s 本地盘治理,解决私有化部署无奈提供云盘的问题;

开发 admission-webhook 实现 TiDB 组件缩容时,事后删除中间件注册表记录,实现用户无感知的缩容。

后续研发打算:

打算减少 Hint 以及规定模块,更精准的辨别 TP/AP,评估可能升高一半以上中间件的 CPU 使用率

提供更丰盛的负载平衡算法,如基于 SQL 运行时老本

中间件减少业务流量管控,如果业务负载增长太快点,超出 serverless 可能解决的增长速度,会导致后盾服务不稳固。通过流量管控,可能很好的解决业务流量暴涨。

本我的项目也取得了 Hacking Camp 优良毕业生和最佳利用奖~看来评审都被我的项目的愿景和开发实力感动了,欢送大家来围观试用~

我的项目地址:https://github.com/tidb-incub…

TiDB for PostgreSQL

我的项目由神州数码发动,旨在提供 TiDB 对 PostgreSQL 的兼容性,同时保留了 TiDB 的高可用性、弹性和可扩展性。容许用户将现有的 PostgreSQL 客户端连贯到 TiDB,并应用 PostgreSQL 特有的语法。

目前实现开发:

Delete 语法革新

增加特定 PgSQL 语法 Returning 关键字

实现 Sysbench_tpcc PgSQL 协定下测试并与该版本下原生 TiDB 测试比照

实现 BenchMarkSQL PgSQ L 协定下基准测试并与该版本下原生 TiDB 测试比照

Benchmark 测试后果比照:


将来打算支持系统库表构造,图形化客户端,以及形象协定层,随时切换不同协定。欢送大家一起来玩~

我的项目地址:https://github.com/DigitalChi…

TiBigData

TiBigData 提供 TiDB 的各类 OLAP 计算引擎的 connector,目前曾经实现包含 Flink,Presto 以及 MapReduce。在 Hacking Camp 中次要工作在 Flink 相干性能开发。

咱们在 Flink 实现了 Snapshot source 和 TiCDC streaming source,联合这两个 source,咱们做到了 TiDB 的流批一体。

其次是数据互通,咱们利用 TiKV 的跨数据中心部署以及 Flink connector 的 follower read 性能,实现了再离线数据真正互通。

最初是计算下推,咱们在各类 connector 里都兼容了 TiKV 的下推算子,可能极大的进步数据扫描与计算效率。

TiBigData 外围性能加强:

TiDB java client 的通用能力加强,咱们实现了 TiDB 的编码器,编码器的代码是从 TiSpark 内解耦进去的,可能适配其余的 OLAP 引擎,也能作为一个通用的工具,被其余有须要的社区搭档援用。

实现了一些数据类型的转换工具,flink/presto 数据类型与 TiDB 的数据类型互相转换。

实现了 TiKV 的分布式客户端,从 API 的层面上更加适配分布式计算框架。

后续将持续开发 Change Log Write、TiDB x Preto/Trino、Flink State Backend in TiKV 等,感兴趣的同学能够退出社区一起玩~

我的项目地址:https://github.com/tidb-incub…

HugeGraph on TiKV

HugeGraph on TiKV 实用于须要大规模图数据库的场景,并且对读写性能要求较高、已具备 TiVK 存储运维团队的 需要场景尤为匹配。

已实现性能:

反对单图实例

反对 Schema 的增删改查

反对 Loader 导入数据 反对顶点和边的增删改查

反对 kout、kneighbor 等 traversal 算法 反对 Gremlin 查问 反对索引查问(不齐备)

成果展现:

导入数据【新余市新冠肺炎数据集】,通过 HugeGraph-Hubble 界面查看图谱成果:

性能测试后果:

导入速度(写)

按 id 查问(随机读)

后续打算:

功能完善

反对多图实例、truncate/clear 图数据、监控接口 metrics、TTL 等高级性能

性能优化

写入性能优化:提交模式、批大小调整等

查问性能优化:数据编码优化、分⻚优化等

我的项目地址:https://github.com/tidb-incub…

Doris Connector:

以 TiDB 为数据源,为 Doris 提供原生的连接器,买通 TP-AP 场景的数据流。实用于对 DML/DDL 的同步反对和过滤指定条件的数据。目前我的项目进度 70%。

设计思路

Stream Load:TiDB 中设计独立服务,定时读取并解析 TiDB binlog 文件,并将数据行拼成 CSV 格式文件,通过 Stream Load 导入到 Doris 中。

Routine Load:借助 TiDB 的 Drainer 将 binlog 同步到 Kafka,Doris 中通过新增 TiDB Binlog 数据格式来实现数据的同步

TiDB 原生协定同步:在 Doris 中实现 TiDB 正本同步协定,将 Doris 伪装成 TiDB 集群的一个节点。

后续布局:

我的项目将进行继续迭代,从用户实在场景登程,使数据处理链路更加无阻。我的项目前期会合并入 Doris 骨干。

我的项目地址:https://github.com/apache/inc…

这一期 Hacking Camp 在六个精彩的我的项目问难中闭幕,但生态的保护是长期的,咱们将继续为这些优良的生态我的项目提供后续反对,保障我的项目长久的生命力。对我的项目感兴趣的同学也请关注后续推文,开创团队将从利用层面解读我的项目对整个 TiDB 生态的价值,更有专题 Meetup 策动中,敬请期待!

从 Ti 星球到宇宙天穹,咱们用 Hacking 连贯更宽泛的生态。2021 TiDB Hackathon 也行将开启,快来和咱们一起摸索数据库技术的神秘!

正文完
 0