在 3 月 13 日举办的 TGIP 流动上,Apache Pulsar PMC 成员、StreamNative 联结创始人翟佳与大家一起回顾了 Apache Pulsar 在 2021 年所获得的问题和停顿,并深刻解读了 2022 年 Pulsar 的技术倒退方向和社区动静。本文为该期 TGIP《预感 2022!Apache Pulsar 技术停顿与社区动静》直播文字整顿版本。
回顾视频可 扫码 👇👇👇
回顾 2021──Apache Pulsar 问题丰硕
2021 年是 Apache Pulsar 成为 ASF 顶级我的项目的第三周年,Apache Pulsar 在 2021 年飞速发展:社区迎来了第 400 位贡献者,月度沉闷贡献者超过 Kafka,在 GitHub Star 的 Star 冲破 10,000+。
Apache Pulsar GitHub 主仓库 Star 数量增长图
Apache Pulsar 月度沉闷贡献者数量赶超 Kafka
这 10,000+ 名关注者扩散在寰球 5700 多个地区,其中欧洲和北美较多,非洲、南美洲也都有散布。
Apache Pulsar 的关注者来自世界各地
而在 Apache 社区中,Pulsar 的体现同样十分沉闷,在 Apache 基金会年度沉闷 Commit 我的项目中排名前五。
在 Pulsar 成为 ASF 顶级我的项目三周年后的 2021 年,Pulsar 的“幕后推手”StreamNative 也被 InfoWorld 评为 最佳开源软件公司。
聚焦我的项目与社区自身,2021 年 Apache Pulsar 同样播种颇丰。谨遵“Apache 之道”,Apache Pulsar 在项目管理委员会中投票产生了 4 位 PMC 成员和 16 位 Committer,这些成员同样散布在寰球各地。在版本迭代上,Pulsar 继续进行版本公布,2021 年共进行了 7 次版本公布。其中在 2.8.0 版本中,Pulsar 事务性能正式可用,能够帮忙用户实现准确一次语义,在跨 Topic 场景下保障了音讯生产和确认的原子性操作。
此外,在上下游生态建设上,Pulsar 也在继续丰盛与强壮,如在 Pulsar Flink Connector – Source、Sink 已合并进入 Flink 上游;StreamNative 主导或联结合作伙伴开源多项周边我的项目,包含 Function Mesh、SQS Connector、AMQP 1.0 Connector 以及 RoP 等。
与此同时,Pulsar 社区的各类流动也踊跃开展:
- 多地(北京、广州、深圳等)举办了 Pulsar 2.8.0 Release Party;
- 定期举办月度开发者与用户组会议;
- 在北京、上海、杭州、广州和深圳等地进行线上线下的 Meetup;
- 举办了三场线上 Pulsar Summit,笼罩了北美、欧洲与亚洲,共计探讨议题 90+,其中亚洲峰会报名 1K+,直播观看 4W+。在峰会中,Apache Pulsar PMC 成员对 Pulsar 将来的倒退路线进行了详尽解读,并展现了各行业场景用户如何应用 Pulsar 来解决本身痛点的实际和摸索。
上述社区活动的相干内容均可在 B 站和 Youtube 上订阅浏览。
在 图书与教程 方面,2021 年出版了首本中文 Apache Pulsar 图书,由 Apache Pulsar PMC 成员林琳撰写并正式出版。此外,StreamNative 还与传智教育旗下黑马程序员社区单干公布了 Apache Pulsar 中文视频教程,在 B 站能够收费浏览和学习。
当然,Apache Pulsar 社区的一直发展壮大,离不开各行业公司的继续关注和积极参与。在 Pulsar Summit Asia 2021 年,咱们也公布了两大奖项:先锋奖与优良案例奖,其中 翼领取、拉卡拉评为先锋奖项,金山云、滴滴、知乎、微信、中国移动云能力核心、伴鱼、科拓停车、腾讯云中间件、FATE 被评为年度优良案例奖项。
Apache Pulsar 2.10 重要个性
在行将公布的 Apache Pulsar 2.10 版本中,性能迭代和性能优化均获得了较大停顿,上线了包含 插件化元数据服务反对、自动化集群故障转移、全局 Topic policy 反对、插件化音讯过滤扩大、Redelivery backoff、Chunk message ID、Table view 以及 Lazy loading producer 等多项功能模块。
在 插件化元数据服务 方面,Pulsar 始终与 ZooKeeper 有着严密的联合,但 ZooKeeper 在面对超大规模的用户时,会呈现大并发和拜访压力等问题。
在社区摸索过程中,心愿元数据的服务能够更加原生化,从而更好地解决用户在元数据层所遇到的问题。目前,用户能够切换成 Etcd 或者其余元数据的服务;而在 Pulsar 外部,所有的 API 根本都已实现,并在继续的优化和改良过程中。
在 自动化集群故障转移 方面,Pulsar 具备跨地区复制、多集群互联互备的性能,但在互联互备的过程中可能会呈现一些问题。对于单个集群,在 Pulsar 的 Cluster 端提供了多种形式让用户拜访多个集群的多个 Broker 服务,而在多集群的状况下,用户通常应用 DNS 的形式,但都不够自动化。所以社区在 Cluster 端,联合 Broker 的个性做了优化,让集群的切换更加自动化。
从 2.9 到 2.10,StreamNative 投入了极大精力在零碎稳定性和要害场景性能方面做了诸多优化。这些性能的迭代和性能的晋升,也会通过社区公众号文章 / 报告的形式进行总结公布,同样还会在发版的 Blog 中为大家进行具体介绍。大家可预约 3 月 27 日 TGIP 直播,由 Pulsar PMC 成员李鹏辉详解 Pulsar 2.10.0 要害个性。
周边生态布局:连接器 & 协定插件
早在 2018 年从 Apache 软件基金会毕业前夕,Pulsar 就曾经具备了良好的云原生和数据管道存储的根底。
很多社区用户就在此基础上进行积极探索,例如在数据管道方面与其余大数据生态做整合、与计算引擎做整合。所以,周边生态始终是 Pulsar 从 Apache 软件基金会毕业后,投入极大精力去建设和倒退的一项内容。在往年的布局中,Pulsar 的生态建设次要蕴含两大内容,即周边连接器与协定插件。
在连接器方面,StreamNative 主导了 Pulsar 与 Snowflake 的整合,反对将数据 Sink 至 Snowflake;与 Lakehouse 技术架构进行整合,与 Flink 社区进行 Source 及 Sink 的合并。
在与 Lakehouse 的整合中,StreamNative 首先通过 Connector 的形式让用户更便捷地将 Pulsar 的数据与 Lakehouse 的数据格式疾速买通,能够让数据在 Pulsar、Hudi 和 Iceberg 之间互通流转,让现有的生态用户实现间接对接。
其次是通过 Pulsar 外部二次存储的形式,把 Pulsar 中的数据间接主动转换成 Hudi 或者 Iceberg 所需的格局,真正让用户应用 Pulsar 的批流交融个性。通过为用户出现对立的数据视图,从而缩小用户在面临新数据技术集成时所遇到的问题。
而在协定插件方面,StreamNative 通过 Pulsar 内嵌的各种服务端协定解析来不便用户与现有的应用程序买通,KoP、MoP 以及 AoP 就是这其中的代表。
其中,KoP(Kafka on Pulsar)是 StreamNative 在协定插件中的第一次摸索。
在 Kafka 和 Pulsar 中都有一个独特的形象,即认为底层的 Topic 就是一个 log,而这种形象在下层的很多设计中也都相似,这让 Kafka on Pulsar 的实现变得简略可行。对于 Kafka 而言,底层依赖于文件系统做数据的存储和 log 的形象;而对于 Pulsar 的底层而言,则是用 BooKkeeper 来做 log 的形象和实现。KoP 目前是社区中应用最多的一个协定插件,将来将在稳定性、事务反对以及更欠缺的运维工具等方面进行继续改善和优化。
MoP(MQTT on Pulsar)则是 Pulsar 对于 MQTT 的反对。目前,社区中很多用户都紧跟 MoP 的步调,将其使用在本人的线上零碎中。将来 MoP 会退出对于不同版本 MQTT 和 SQS 的反对,着力倒退稳定性和多协定反对。
AoP(AMQP on Pulsar),即 Pulsar 对于 AMQP 的反对。以后曾经有用户在线上部署了 AoP,为 AMQP 提供服务反对。将来,社区将依据用户的需要,对 AMQP 1.0 做更多反对,继续优化 AoP 的扩展性、可读性以及可维护性。
2022 年 Apache Pulsar 社区活动瞻望
聚焦往年,Pulsar 在 2022 年打算推动的各类社区活动仍然精彩纷呈:
- Release Party: 新版本公布庆贺流动的举办,岂但能够对参加版本公布的贡献者进行感激,还能够让大家针对新版本内容进行深刻解读与互动探讨;
- 线上线下 Meetup: 疫情可控后 Meetup 将会笼罩更多的城市与地区,让开发者们与 Pulsar 贡献者进行面对面的沟通和交换;
- 中文开发者与用户组月度会议 会议于每月最初一周周三定期举办,在按需进行会议组织的根底上笼罩更多的方向,进行更精细化的经营,以晋升沟通效率;
- Pulsar Summit 2022: 2022 年,欧洲峰会将与北美峰会合并为 Global 峰会,并于 8 月举办,而亚洲峰会将于 11 月举办,视疫情状况确定线上 / 线下。
在图书与教程方面,2022 年将翻译并引进更多优良的国外书籍。其中《Apache Pulsar In Action》已由图灵图书引进,预计将于往年出版;《Mastering Apache Pulsar》已由博文视点引进,同样预计将于往年出版。此外,还会通过社区资源的相干渠道(微信公众号、B 站、邮件列表、Slack 以及 GitHub),公布更多有对于 Pulsar 的线上教程。
面向 2022 年,无论是 Apache Pulsar 还是 StreamNative 都心愿各位开发者和社区的关注者们能够提出更多的意见,收回更多的声音,一起交换共创,让 Pulsar 解决更多行业的痛点,一起预感更美妙的 2022。
QA 精选
Q:在大数据方面,应用 Pulsar 代替 Kafka 次要劣势在哪些方面?须要留神什么?
A:Pulsar 与 Kafka 相比,两者的架构齐全不一样。Pulsar 自诞生之日起就是以云原生为方向的音讯平台,以 MQ 和数据管道为倒退重点。对 MQ 和数据管道利用场景的对立,在云原生方向上更便捷的治理和调度、更轻的运维都是 Pulsar 的次要劣势。与此同时,在一致性、批流交融上的存储个性、大集群能力、跨地区复制、私有云和公有云的买通和互联互备、与云上的存储资源做对接等都是 Pulsar 的劣势所在。
Q:社区是否有将 Pulsar 和数据湖、Hudi 和 Iceberg 集成的打算?
A:第一步的打算是以 Connector 的形式让数据在 Pulsar、Hudi 和 Iceberg 之间互相流转;第二步将通过 Pulsar 的二级存储把 Pulsar 的数据通过用户的设置,主动迁徙成 Hudi 或者 Iceberg 的格局,并通过 Pulsar 提供对立的数据拜访层。
相干浏览
- 直播回顾| TGIP-CN 035: Apache Pulsar 入手实战第二期:容器部署实战
- 直播回顾 | TGIP-CN 034:RoP 的前世今生(附视频与 PPT)
- Apache Pulsar 2021 年度盘点
对于 StreamNative
StreamNative 是一家开源根底软件公司,由 Apache 软件基金会顶级我的项目 Apache Pulsar 开创团队组建而成,围绕 Pulsar 打造下一代云原生批流交融数据平台。StreamNative 作为 Apache Pulsar 商业化公司,专一于开源生态和社区构建,致力于前沿技术畛域的翻新,开创团队成员曾就任于 Yahoo、Twitter、Splunk、EMC 等出名大公司。
点击观看 TGIP-CN 直播合集