乐趣区

关于apache:直播回顾|TGIPCN-036Apache-Pulsar-最新技术进展与动态

在 3 月 13 日举办的 TGIP 流动上,Apache Pulsar PMC 成员、StreamNative 联结创始人翟佳与大家一起回顾了 Apache Pulsar 在 2021 年所获得的问题和停顿,并深刻解读了 2022 年 Pulsar 的技术倒退方向和社区动静。本文为该期 TGIP《预感 2022!Apache Pulsar 技术停顿与社区动静》直播文字整顿版本。

回顾视频可 扫码 👇👇👇

回顾 2021──Apache Pulsar 问题丰硕

2021 年是 Apache Pulsar 成为 ASF 顶级我的项目的第三周年,Apache Pulsar 在 2021 年飞速发展:社区迎来了第 400 位贡献者,月度沉闷贡献者超过 Kafka,在 GitHub Star 的 Star 冲破 10,000+


Apache Pulsar GitHub 主仓库 Star 数量增长图


Apache Pulsar 月度沉闷贡献者数量赶超 Kafka

10,000+ 名关注者扩散在寰球 5700 多个地区,其中欧洲和北美较多,非洲、南美洲也都有散布。


Apache Pulsar 的关注者来自世界各地

而在 Apache 社区中,Pulsar 的体现同样十分沉闷,在 Apache 基金会年度沉闷 Commit 我的项目中排名前五

在 Pulsar 成为 ASF 顶级我的项目三周年后的 2021 年,Pulsar 的“幕后推手”StreamNative 也被 InfoWorld 评为 最佳开源软件公司

聚焦我的项目与社区自身,2021 年 Apache Pulsar 同样播种颇丰。谨遵“Apache 之道”,Apache Pulsar 在项目管理委员会中投票产生了 4 位 PMC 成员和 16 位 Committer,这些成员同样散布在寰球各地。在版本迭代上,Pulsar 继续进行版本公布,2021 年共进行了 7 次版本公布。其中在 2.8.0 版本中,Pulsar 事务性能正式可用,能够帮忙用户实现准确一次语义,在跨 Topic 场景下保障了音讯生产和确认的原子性操作。

此外,在上下游生态建设上,Pulsar 也在继续丰盛与强壮,如在 Pulsar Flink Connector – Source、Sink 已合并进入 Flink 上游;StreamNative 主导或联结合作伙伴开源多项周边我的项目,包含 Function Mesh、SQS Connector、AMQP 1.0 Connector 以及 RoP 等。

与此同时,Pulsar 社区的各类流动也踊跃开展:

  • 多地(北京、广州、深圳等)举办了 Pulsar 2.8.0 Release Party;
  • 定期举办月度开发者与用户组会议;
  • 在北京、上海、杭州、广州和深圳等地进行线上线下的 Meetup;
  • 举办了三场线上 Pulsar Summit,笼罩了北美、欧洲与亚洲,共计探讨议题 90+,其中亚洲峰会报名 1K+,直播观看 4W+。在峰会中,Apache Pulsar PMC 成员对 Pulsar 将来的倒退路线进行了详尽解读,并展现了各行业场景用户如何应用 Pulsar 来解决本身痛点的实际和摸索。

上述社区活动的相干内容均可在 B 站和 Youtube 上订阅浏览。

图书与教程 方面,2021 年出版了首本中文 Apache Pulsar 图书,由 Apache Pulsar PMC 成员林琳撰写并正式出版。此外,StreamNative 还与传智教育旗下黑马程序员社区单干公布了 Apache Pulsar 中文视频教程,在 B 站能够收费浏览和学习。

当然,Apache Pulsar 社区的一直发展壮大,离不开各行业公司的继续关注和积极参与。在 Pulsar Summit Asia 2021 年,咱们也公布了两大奖项:先锋奖与优良案例奖,其中 翼领取、拉卡拉评为先锋奖项,金山云、滴滴、知乎、微信、中国移动云能力核心、伴鱼、科拓停车、腾讯云中间件、FATE 被评为年度优良案例奖项。

Apache Pulsar 2.10 重要个性

在行将公布的 Apache Pulsar 2.10 版本中,性能迭代和性能优化均获得了较大停顿,上线了包含 插件化元数据服务反对、自动化集群故障转移、全局 Topic policy 反对、插件化音讯过滤扩大、Redelivery backoff、Chunk message ID、Table view 以及 Lazy loading producer 等多项功能模块。

插件化元数据服务 方面,Pulsar 始终与 ZooKeeper 有着严密的联合,但 ZooKeeper 在面对超大规模的用户时,会呈现大并发和拜访压力等问题。

在社区摸索过程中,心愿元数据的服务能够更加原生化,从而更好地解决用户在元数据层所遇到的问题。目前,用户能够切换成 Etcd 或者其余元数据的服务;而在 Pulsar 外部,所有的 API 根本都已实现,并在继续的优化和改良过程中。

自动化集群故障转移 方面,Pulsar 具备跨地区复制、多集群互联互备的性能,但在互联互备的过程中可能会呈现一些问题。对于单个集群,在 Pulsar 的 Cluster 端提供了多种形式让用户拜访多个集群的多个 Broker 服务,而在多集群的状况下,用户通常应用 DNS 的形式,但都不够自动化。所以社区在 Cluster 端,联合 Broker 的个性做了优化,让集群的切换更加自动化。

从 2.9 到 2.10,StreamNative 投入了极大精力在零碎稳定性和要害场景性能方面做了诸多优化。这些性能的迭代和性能的晋升,也会通过社区公众号文章 / 报告的形式进行总结公布,同样还会在发版的 Blog 中为大家进行具体介绍。大家可预约 3 月 27 日 TGIP 直播,由 Pulsar PMC 成员李鹏辉详解 Pulsar 2.10.0 要害个性。

周边生态布局:连接器 & 协定插件

早在 2018 年从 Apache 软件基金会毕业前夕,Pulsar 就曾经具备了良好的云原生和数据管道存储的根底。

很多社区用户就在此基础上进行积极探索,例如在数据管道方面与其余大数据生态做整合、与计算引擎做整合。所以,周边生态始终是 Pulsar 从 Apache 软件基金会毕业后,投入极大精力去建设和倒退的一项内容。在往年的布局中,Pulsar 的生态建设次要蕴含两大内容,即周边连接器与协定插件。

在连接器方面,StreamNative 主导了 Pulsar 与 Snowflake 的整合,反对将数据 Sink 至 Snowflake;与 Lakehouse 技术架构进行整合,与 Flink 社区进行 Source 及 Sink 的合并。

在与 Lakehouse 的整合中,StreamNative 首先通过 Connector 的形式让用户更便捷地将 Pulsar 的数据与 Lakehouse 的数据格式疾速买通,能够让数据在 Pulsar、Hudi 和 Iceberg 之间互通流转,让现有的生态用户实现间接对接。

其次是通过 Pulsar 外部二次存储的形式,把 Pulsar 中的数据间接主动转换成 Hudi 或者 Iceberg 所需的格局,真正让用户应用 Pulsar 的批流交融个性。通过为用户出现对立的数据视图,从而缩小用户在面临新数据技术集成时所遇到的问题。

而在协定插件方面,StreamNative 通过 Pulsar 内嵌的各种服务端协定解析来不便用户与现有的应用程序买通,KoP、MoP 以及 AoP 就是这其中的代表。

其中,KoP(Kafka on Pulsar)是 StreamNative 在协定插件中的第一次摸索

在 Kafka 和 Pulsar 中都有一个独特的形象,即认为底层的 Topic 就是一个 log,而这种形象在下层的很多设计中也都相似,这让 Kafka on Pulsar 的实现变得简略可行。对于 Kafka 而言,底层依赖于文件系统做数据的存储和 log 的形象;而对于 Pulsar 的底层而言,则是用 BooKkeeper 来做 log 的形象和实现。KoP 目前是社区中应用最多的一个协定插件,将来将在稳定性、事务反对以及更欠缺的运维工具等方面进行继续改善和优化。

MoP(MQTT on Pulsar)则是 Pulsar 对于 MQTT 的反对。目前,社区中很多用户都紧跟 MoP 的步调,将其使用在本人的线上零碎中。将来 MoP 会退出对于不同版本 MQTT 和 SQS 的反对,着力倒退稳定性和多协定反对。

AoP(AMQP on Pulsar),即 Pulsar 对于 AMQP 的反对。以后曾经有用户在线上部署了 AoP,为 AMQP 提供服务反对。将来,社区将依据用户的需要,对 AMQP 1.0 做更多反对,继续优化 AoP 的扩展性、可读性以及可维护性。

2022 年 Apache Pulsar 社区活动瞻望

聚焦往年,Pulsar 在 2022 年打算推动的各类社区活动仍然精彩纷呈:

  • Release Party: 新版本公布庆贺流动的举办,岂但能够对参加版本公布的贡献者进行感激,还能够让大家针对新版本内容进行深刻解读与互动探讨;
  • 线上线下 Meetup: 疫情可控后 Meetup 将会笼罩更多的城市与地区,让开发者们与 Pulsar 贡献者进行面对面的沟通和交换;
  • 中文开发者与用户组月度会议 会议于每月最初一周周三定期举办,在按需进行会议组织的根底上笼罩更多的方向,进行更精细化的经营,以晋升沟通效率;
  • Pulsar Summit 2022: 2022 年,欧洲峰会将与北美峰会合并为 Global 峰会,并于 8 月举办,而亚洲峰会将于 11 月举办,视疫情状况确定线上 / 线下。

在图书与教程方面,2022 年将翻译并引进更多优良的国外书籍。其中《Apache Pulsar In Action》已由图灵图书引进,预计将于往年出版;《Mastering Apache Pulsar》已由博文视点引进,同样预计将于往年出版。此外,还会通过社区资源的相干渠道(微信公众号、B 站、邮件列表、Slack 以及 GitHub),公布更多有对于 Pulsar 的线上教程。

面向 2022 年,无论是 Apache Pulsar 还是 StreamNative 都心愿各位开发者和社区的关注者们能够提出更多的意见,收回更多的声音,一起交换共创,让 Pulsar 解决更多行业的痛点,一起预感更美妙的 2022。

QA 精选

Q:在大数据方面,应用 Pulsar 代替 Kafka 次要劣势在哪些方面?须要留神什么?

A:Pulsar 与 Kafka 相比,两者的架构齐全不一样。Pulsar 自诞生之日起就是以云原生为方向的音讯平台,以 MQ 和数据管道为倒退重点。对 MQ 和数据管道利用场景的对立,在云原生方向上更便捷的治理和调度、更轻的运维都是 Pulsar 的次要劣势。与此同时,在一致性、批流交融上的存储个性、大集群能力、跨地区复制、私有云和公有云的买通和互联互备、与云上的存储资源做对接等都是 Pulsar 的劣势所在。

Q:社区是否有将 Pulsar 和数据湖、Hudi 和 Iceberg 集成的打算?

A:第一步的打算是以 Connector 的形式让数据在 Pulsar、Hudi 和 Iceberg 之间互相流转;第二步将通过 Pulsar 的二级存储把 Pulsar 的数据通过用户的设置,主动迁徙成 Hudi 或者 Iceberg 的格局,并通过 Pulsar 提供对立的数据拜访层。

相干浏览

  • 直播回顾| TGIP-CN 035: Apache Pulsar 入手实战第二期:容器部署实战
  • 直播回顾 | TGIP-CN 034:RoP 的前世今生(附视频与 PPT)
  • Apache Pulsar 2021 年度盘点

对于 StreamNative

StreamNative 是一家开源根底软件公司,由 Apache 软件基金会顶级我的项目 Apache Pulsar 开创团队组建而成,围绕 Pulsar 打造下一代云原生批流交融数据平台。StreamNative 作为 Apache Pulsar 商业化公司,专一于开源生态和社区构建,致力于前沿技术畛域的翻新,开创团队成员曾就任于 Yahoo、Twitter、Splunk、EMC 等出名大公司。

点击观看 TGIP-CN 直播合集

退出移动版