关于pulsar:Apache-Pulsar-技术系列-Pulsar-总览

Apache Pulsar 是一个多租户、高性能的服务间音讯传输解决方案，数据长久化依赖 Apache BookKeeper 实现，反对多租户、低延时、读写拆散、跨地区复制、疾速扩容、灵便容错等个性。本文将从以下几个方面为大家介绍 Apache Pulsar 的设计原理和个性。

1、Apache Pulsar 架构

2、架构设计的劣势

3、Pulsar 个性

4、总结

Apache Pulsar 是 Pub/Sub 模型的音讯零碎，并且从设计上做了存储和计算的拆散，如图一所示。

图一 Pulsar 架构

Apache Pulsar 次要包含 Broker, Apache BookKeeper, Producer, Consumer 等组件。

Broker：无状态服务层，负责接管和传递音讯，集群负载平衡等工作，Broker 不会长久化保留元数据，因而能够疾速的上、下线。
Apache BookKeeper：有状态长久层，由一组名为 Bookie 的存储节点组成，长久化地存储音讯。
Producer：数据生产者，负责公布数据到 Topic。
Consumer：数据消费者，负责从 Topic 订阅数据。

除了上述的组件之外，Apache Pulsar 还依赖 Zookeeper 作为元数据存储。与传统的音讯零碎相比，Apache Pulsar 在架构设计上采纳了计算与存储拆散的模式，Pub/Sub 相干的计算逻辑在 Broker 上实现，数据存储在 Apache BookKeeper 的 Bookie 节点上。

除了存储、计算解耦拆散的设计之外，Apache Pulsar 在存储设计上也不同于传统 MQ 的分区数据本地存储的模式，采纳的是分片存储的模式，存储粒度比分区更细化、存储负载更平衡。Apache Pulsar 中的每个 Topic 分区实质上都是存储在 Apache BookKeeper 中的分布式日志。Topic 能够有多个分区，分区数据长久化时，分区是逻辑上的概念，理论存储的单位是分片（Segment）的，如图二，一个分区 Topic1-Part2 的数据由多个 Segment 组成，每个 Segment 作为 Apache BookKeeper 中的一个 Ledger，均匀分布并存储在 Apache BookKeeper 群集中的多个 Bookie 节点中，每个 Segment 具备 3 个正本。

图二 Pulsar 分片存储

上面能够通过图三来看分区和分片存储的区别。

图三分片存储和分区存储

Apache Pulsar 计算与存储拆散的架构，以及分片存储的设计为 Apache Pulsar 带来了相比于传统基于分区存储 MQ 的一些劣势：

Broker 和 Bookie 互相独立，不便实现独立的扩大以及独立的容错。
Broker 无状态，便于疾速上、下线，更加适宜于云原生场景。
分区存储不受限于单个节点存储容量。
分区数据分布平均。
…

因为音讯服务层和长久存储层是离开的，因而 Apache Pulsar 能够独立地扩大存储层和服务层。

在 Pulsar 中 Broker 是无状态的，能够通过减少节点的形式实现疾速扩容。当须要反对更多的消费者或生产者时，能够简略地增加更多的 Broker 节点来满足业务需要。Pulsar 反对主动的分区负载平衡，在 Broker 节点的资源使用率达到阈值时，会将负载迁徙到负载较低的 Broker 节点，这个过程中分区也将在多个 Broker 节点中做均衡迁徙，一些分区的所有权会转移到新的 Broker 节点。

存储层的扩容，通过减少 Bookie 节点来实现。通过资源感知和数据搁置策略，流量将主动切换到新的 Bookie 节点中，整个过程不会波及到不必要的数据搬迁，即不须要将旧数据从现有存储节点从新复制到新存储节点。

图四 Bookie 扩容

如图四所示，起始状态有四个存储节点，Bookie1, Bookie2, Bookie3, Bookie4，以 Topic1-Part2 为例，当这个分区的最新的存储分片是 SegmentX 时，对存储层扩容，增加了新的 Bookie 节点，BookieX,BookieY，那么在存储分片滚动之后，新生成的存储分片，SegmentX+1,SegmentX+2，会优先选择新的 Bookie 节点（BookieX,BookieY）来保留数据。

得益于计算与存储拆散以及分片存储的设计，Pulsar 能够实现独立、灵便的容错。

当 Broker 节点失败时，以图五为例，当存储分片滚动到 SegmentX 时，Broker2 节点失败，此时生产者和消费者向其余的 Broker 发动申请，这个过程会触发分区的所有权转移，行将 Broker2 领有的分区 Topic1-Part2 的所有权转移到其余的 Broker(Broker3)。在 Apache Pulsar 中数据存储和数据服务拆散，所以新 Broker 接管分区的所有权时，它不须要复制 Partiton 的数据。新的分区 Owner（Broker3）会产生一个新的分片 SegmentX+1, 如果有新数据到来，会存储在新的分片 Segment x+ 1 上，不会影响分区的可用性。

图五 Broker 容错

当 Bookie 节点失败时，如图六所示，假如 Bookie 2 上的 Segment 4 损坏。Apache BookKeeper Auditor 会检测到这个谬误并进行复制修复。Apache BookKeeper 中的正本修复是 Segment 级别的多对多疾速修复，BookKeeper 能够从 Bookie 3 和 Bookie 4 读取 Segment 4 中的音讯，并在 Bookie 1 处修复 Segment 4。如果是 Bookie 节点故障，这个 Bookie 节点上所有的 Segment 会依照上述形式复制到其余的 Bookie 节点。所有的正本修复都在后盾进行，对 Broker 和利用通明，Broker 会产生新的 Segment 来解决写入申请，不会影响分区的可用性。

图六 Bookie 容错

分片存储解决了分区容量受单节点存储空间限度的问题，当容量不够时，能够通过扩容 Bookie 节点的形式撑持更多的分区数据，也解决了分区数据歪斜问题，数据能够平均的调配在 Bookie 节点上。Broker 和 Bookie 灵便的容错以及无缝的扩容能力让 Apache Pulsar 具备十分高的可用性。

基于上述的设计特点，Pulsar 提供了很多个性，以下做简要的介绍。

Pulsar 另外一个有吸引力的个性是提供了读写拆散的能力，读写拆散保障了在有大量滞后生产（磁盘 IO 会减少）时，不会影响服务的失常运行，尤其是不会影响到数据的写入。读写拆散的能力由 Apache BookKeeper 提供，简略说一下 Bookie 存储波及到的概念：

Journals：Journal 文件蕴含了 BookKeeper 事务日志，在 Ledger 更新之前，Journal 保障形容更新的事务写入到 Non-volatile 的存储介质上。
Entry logs：Entry 日志文件治理写入的 Entry，来自不同 ledger 的 entry 会被聚合而后程序写入。
Index files：每个 Ledger 都有一个对应的索引文件，记录数据在 Entry 日志文件中的 Offset 信息。

Entry 的读写入过程如图七所示，数据的写入流程：

数据首先会写入 Journal，写入 Journal 的数据会实时落到磁盘。
而后，数据写入到 Memtable，Memtable 是读写缓存。
写入 Memtable 之后，对写入申请进行响应。
Memtable 写满之后，会 Flush 到 Entry Logger 和 Index cache，Entry Logger 中保留了数据，Index cache 保留了数据的索引信息，而后由后盾线程将 Entry Logger 和 Index cache 数据落到磁盘。

数据的读取流程：

如果是 Tailing read 申请，间接从 Memtable 中读取 Entry。
如果是 Catch-up read（滞后生产）申请，先读取 Index 信息，而后索引从 Entry Logger 文件读取 Entry。

图七 Bookie 的数据写入和读取

个别在进行 Bookie 的配置时，会将 Journal 和 Ledger 存储磁盘进行隔离，缩小 Ledger 对于 Journal 写入的影响，并且举荐 Journal 使用性能较好的 SSD 磁盘，读写拆散次要体现在：

写入 Entry 时，Journal 中的数据须要实时写到磁盘，Ledger 的数据不须要实时落盘，通过后盾线程批量落盘，因而写入的性能次要受到 Journal 磁盘的影响。
读取 Entry 时，首先从 Memtable 读取，命中则返回；如果不命中，再从 Ledger 磁盘中读取，所以对于 Catch-up read 的场景，读取数据会影响 Ledger 磁盘的 IO，对 Journal 磁盘没有影响，也就不会影响到数据的写入。

所以，数据写入是次要是受 Journal 磁盘的负载影响，不会受 Ledger 磁盘的影响。另外，Segment 存储的多个正本都能够提供读取服务，相比于主从正本的设计，Apache Pulsar 能够提供更好的数据读取能力。通过以上剖析，Apache Pulsar 应用 Apache BookKeeper 作为数据存储，能够带来下列的收益：

反对将多个 Ledger 的数据写入到同一个 Entry logger 文件，能够防止分区收缩带来的性能降落问题。
反对读写拆散，能够在滞后生产场景导致磁盘 IO 上升时，保证数据写入的不受影响。
反对全副本读取，能够充分利用存储正本的数据读取能力。

Apache Pulsar 提供了多种订阅形式来生产音讯，分为三种类型：独占（Exclusive），故障切换（Failover）或共享（Share）。

图八生产模型

Exclusive 独占订阅 ：在任何工夫，一个消费者组（订阅）中有且只有一个消费者来生产 Topic 中的音讯。
Failover 故障切换 ：多个消费者（Consumer）能够附加到同一订阅。然而，一个订阅中的所有消费者，只会有一个消费者被选为该订阅的主消费者。其余消费者将被指定为故障转移消费者。当主消费者断开连接时，分区将被重新分配给其中一个故障转移消费者，而新调配的消费者将成为新的主消费者。产生这种状况时，所有未确认（ack）的音讯都将传递给新的主消费者。
Share 共享订阅 ：应用共享订阅，在同一个订阅背地，用户依照利用的需要挂载任意多的消费者。订阅中的所有音讯以循环散发模式发送给订阅背地的多个消费者，并且一个音讯仅传递给一个消费者。当消费者断开连接时，所有传递给它然而未被确认（ack）的音讯将被重新分配和组织，以便发送给该订阅上残余的残余消费者。

音讯确认（ACK）的目标就是保障当产生故障后，消费者可能从上一次进行的中央复原生产，保障既不会失落音讯，也不会反复解决曾经确认（ACK）的音讯。在 Pulsar 中，每个订阅中都应用一个专门的数据结构 – 游标（Cursor）来跟踪订阅中的每条音讯的确认（ACK）状态。每当消费者在分区上确认音讯时，游标都会更新。Pulsar 提供两种音讯确认办法：

单条确认（Individual Ack），独自确认一条音讯。被确认后的音讯将不会被从新传递。
和累积确认（Cumulative Ack），通过累积确认，消费者只须要确认它收到的最初一条音讯。

图九阐明了单条确认和累积确认的差别（灰色框中的音讯被确认并且不会被从新传递）。对于累计确认，M12 之前的音讯被标记为 Acked。对于独自进行 ACK，仅确认音讯 M7 和 M12，在消费者失败的状况下，除了 M7 和 M12 之外，其余所有音讯将被从新传送。

图九 ACK 模型

Apache Pulsar 的跨地区复制机制（Geo-Replication）提供了一种全连贯的异步复制，能够满足多个数据中心数据同步的应用场景。

图十 Geo-replication

如图十所示，有三个 Apache Pulsar 集群，散布于北京、上海和广州，用户创立的一个 Topic T1 设置了逾越三个数据中心做互备。在三个数据中心中，别离有三个生产者：P1、P2、P3，它们往主题 T1 中公布音讯；有两个消费者：C1、C2，订阅了这个主题，接管主题中的音讯。当音讯由本数据中心的生产者公布胜利后，会立刻复制到其余两个数据中心。音讯复制实现后，消费者不仅能够收到本数据中心产生的音讯，也能够收到从其余数据中心复制过去的音讯。

Pulsar 采纳了计算、存储拆散的设计，并且存储在逻辑上分区，物理上分片，具备一些传统类 kafka 的 MQ 所不具备的劣势，也解决了一些业界的痛点，Pulsar 目前社区比拟沉闷，还处于疾速倒退的阶段，除了以上的个性之外，Pulsar 还能够反对事务、SQL 查问、Function 等性能，另外 Pulsar 反对 protocol handler，比方 KoP（Kafka on Pulsar）, 能够原生反对 Kafka 协定的数据，对于这些个性，咱们会在后续的文章中做介绍。

关于pulsar:Apache-Pulsar-技术系列-Pulsar-总览

Apache Pulsar 架构

存储计算拆散

分片存储

架构设计的劣势

可扩展性

Broker 扩大

Bookie 扩大

容错

Broker 容错

Bookie 容错

无限度的分区存储

Pulsar 个性

读写拆散

多种生产模型

多种 ACK 模型

跨地区复制

总结

Just My Socks（注册教程内含优惠码）

关于pulsar:Apache-Pulsar-技术系列-Pulsar-总览

Apache Pulsar 架构

存储计算拆散

分片存储

架构设计的劣势

可扩展性

Broker 扩大

Bookie 扩大

容错

Broker 容错

Bookie 容错

无限度的分区存储

Pulsar 个性

读写拆散

多种生产模型

多种 ACK 模型

跨地区复制

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）