应用场景
- 日志聚合,一般 kafka 使用来记录日志信息。
- 限流削峰,当大量数据同时请求到服务的时候,可以造成服务宕机,直接将消息放到 kafka,然后对应服务根据规则取读取。
高吞吐率
- 顺序读写(partition 中的消息是顺序读写的。)
- 零 copy
- 批量发送
- 压缩消息
基本术语
- broker kafka 机器节点
- topic 主题 逻辑上概念,来划分消息所属的类
- partition 主题对应到物理存储上。一个 topic 至少一个 partition。在某个 partition 中的消息是有序的。多分区小没有办法保证消息的有序性 分区本身是 FIFO。一般 分区数量是 borker 的整数倍
- segment 将 partiton 细分为段,(三个文件一套 ,index .log)每个段的最大存储值是相同的
通过二分查找找到对应的 文件 log 然后根据 index 文件中存储的偏移量 找到对应的 log 中的偏移量存储的消息。
log 文件的最大大小配置在配置文件中 log.segment.byte
- consumer 消费者:一个消费者可消费多个 topic,也可以消费同一个 topic 中的多个 parition 中的消息。一个分区中的消息运行多个无关的消费者同时消费。
- cosumergroup:消费者组 组内的消费者会协调在一起,平均消费分区。对分区的消费是平均的。但是对消息的消费不是平均的。某个消费者只能消费一个 pairtition 中的消息。
- producer 生产者:生成的消息默认是平均分的。也可以指定写到某个 partition。也可以根据消息的 key 当作路由算出来写到某个分区
- 分区副本:防止消息丢失做的 分区的备份。需要注意的是 备份得在不同的机器上。
- partition leader:多个副本 得有一个 leader。负责当前消息的读写的 partition。broker controller 负责 leader 的选举
- partition follower:主备 消息 follower 不是主从。主备的。从节点不对外提供服务
- isr 副本的同步列表 get /brokers/topics/java/partitions/state 得到 一个 isr:【2,1】列表 leader 的节点下标 leader“2”
- offest:每条消息都有一个当前 parittion 下的唯一的一个 64 字节的偏移量。先根据 index 下索引文件找到对应的偏移量。根据偏移量找到对应的消息的地址值。
- broker controller broker 有一个被选举为 controller。负责管理 partition 和 replicas 的状态 例如 partition leader 故障,由 controller 负责从 isr 的 follower 中选举出一个新的 leader。当某个 partition 数量发生变化的时候,controller 来负责重新分配消费者。
-
Hw 与 Leo
hw 表示 consumer 可以消费到的最高的 partition 偏移量。为了保证 partiton 中 leader 和 follower 的数据一致性leo 表示 follower 当前最后一个写入消息的位置。
leader 新写入的消息。consumer 不能立刻消费。等到同步完成后,更新 hw。消息才能被消费
- Zookeeper
从 kafka 0.9 版本之后,zk 的工作变的很简单,负责维护和协调 borker。broker controller 的选举工作。zk 中存放着 各个 topic 主题的分区信息,分区的 leader 信息等。* Coordinator
是 broker 上的一个进程。管理 consumer group 中的各个成员,主要用于 offset 位移的管理和 rebalance。* Rebalance
当分区数量发生变化的时候,或者消费者组中的消费者数量发送变化的时候,将 partiton 重新分配到不同的消费者。*offset commit
consumer 消费一批消息后,需要将消费完的 offset 提交给 broker。让 borker 记录下哪些消息是消费过的。系统会将提交的 offset 做完消息写入到 _consumer_offsets 主题的 partiton 中。key 为消费者的 id。根据 key 计算出 hash 值,然后再将 hash 与 50 取模,余数就是对应的 partition 编号。