共计 1226 个字符,预计需要花费 4 分钟才能阅读完成。
原作者:Ben Lorica、Jesse Anderson 翻译:StreamNative-Sijia
多层架构、可扩展、多租户和持久性只是众多公司选择 Pulsar 的一部分原因。
想要了解更多关于 Apache Kafka、Apache Pulsar、Apache Spark 和其他数据技术的信息,欢迎参加 2019 年 9 月 23 日至 26 日在纽约市举办的 Strata Data Conference,在 ”Data Engineering & Architecture” 研讨会上均有介绍。
企业通过越来越多的系统和设备生成数据,消息传递和事件流解决方案也(尤其是 Apache Kafka)得以广泛使用。在过去的一年里,我们一直在追踪 Apache Pulsar(以下简称 Pulsar)的进展。虽然 Pulsar 是一个后起新秀,但的确是个功能强大的解决方案。Pulsar 由 Yahoo 研发并开源,旨在智能地处理、分析和交付数据(数据来自不断扩展的服务和应用程序),因此非常适合现代数据平台。另外,Pulsar 也被设计成可以减轻与复杂分布式系统相关的运维负担。
还有谁对 Pulsar 感兴趣?Streamlio 的 CEO Karthik Ramasamy 分享了最近访问 Pulsar 主页用户的地理统计数据:
在几千名访问者中,有 33% 来自美洲,36% 来自亚太地区,27% 来自欧洲、中东和非洲。
尽管 Apache Kafka 是迄今为止最受欢迎的发布 / 订阅解决方案,但在过去的一年中,我们发现有不少公司使用 Pulsar。事实证明,Pulsar 的一些特性受到了这些公司的重视,包括:
- 多层架构:由服务层(broker 协调消息接收、存储、处理和传递)、存储层(使用 Apache BookKeeper 节点持久化消息)和处理层(通过 Pulsar functions 或 Pulsar SQL)组成。
- 高性能和可扩展性:Pulsar 已经在 Yahoo 使用了多年,每天处理超过 200 万个主题中的 1000 亿条消息。它能够支持数百万个主题,同时还能保证高吞吐量和低延迟的性能。
- 易于增加存储或服务,而无需重新平衡整个集群:多层架构允许存储可以被独立地添加,也允许在不停机的情况下扩展服务层和存储层。
- 支持常见消息模型,包括发布 / 订阅消息和消息队列。
- 多租户:单个 Pulsar 集群能支持整个企业的需求,并允许每个团队拥有各自的命名空间和容量。
- 持久性(无数据丢失):数据被复制多份并同步到磁盘。
- 跨地域复制:原生支持跨地域分布的应用程序。Pulsar 支持多个模式,方便在集群之间复制数据。
上一代消息系统主要关注移动数据,而新兴框架(例如,Pulsar)则添加了数据处理功能,这些功能对于将数据提供给分析和 AI 应用至关重要。互联设备的增加、5G 的来临、机器学习和 AI 重要性的日益增长,都要求企业建立基础架构,用于捕获、处理和移动数据流。企业也将越来越需要(近)实时执行这些任务。好消息是,用于数据管理、处理、传输和调度的关键组件在不断改进,自动化技术应该能够降低运营负担。