kafka-基本概念

54次阅读

共计 1718 个字符,预计需要花费 5 分钟才能阅读完成。

应用场景

  • 日志聚合,一般 kafka 使用来记录日志信息。
  • 限流削峰,当大量数据同时请求到服务的时候,可以造成服务宕机,直接将消息放到 kafka,然后对应服务根据规则取读取。

高吞吐率

  • 顺序读写(partition 中的消息是顺序读写的。)
  • 零 copy
  • 批量发送
  • 压缩消息

基本术语

  • broker kafka 机器节点
  • topic 主题 逻辑上概念,来划分消息所属的类
  • partition 主题对应到物理存储上。一个 topic 至少一个 partition。在某个 partition 中的消息是有序的。多分区小没有办法保证消息的有序性 分区本身是 FIFO。一般 分区数量是 borker 的整数倍
  • segment 将 partiton 细分为段,(三个文件一套 ,index .log)每个段的最大存储值是相同的

    通过二分查找找到对应的 文件 log 然后根据 index 文件中存储的偏移量 找到对应的 log 中的偏移量存储的消息。

    log 文件的最大大小配置在配置文件中 log.segment.byte

  • consumer 消费者:一个消费者可消费多个 topic,也可以消费同一个 topic 中的多个 parition 中的消息。一个分区中的消息运行多个无关的消费者同时消费。
  • cosumergroup:消费者组 组内的消费者会协调在一起,平均消费分区。对分区的消费是平均的。但是对消息的消费不是平均的。某个消费者只能消费一个 pairtition 中的消息。
  • producer 生产者:生成的消息默认是平均分的。也可以指定写到某个 partition。也可以根据消息的 key 当作路由算出来写到某个分区
  • 分区副本:防止消息丢失做的 分区的备份。需要注意的是 备份得在不同的机器上。
  • partition leader:多个副本 得有一个 leader。负责当前消息的读写的 partition。broker controller 负责 leader 的选举
  • partition follower:主备 消息 follower 不是主从。主备的。从节点不对外提供服务
  • isr 副本的同步列表 get /brokers/topics/java/partitions/state 得到 一个 isr:【2,1】列表 leader 的节点下标 leader“2”
  • offest:每条消息都有一个当前 parittion 下的唯一的一个 64 字节的偏移量。先根据 index 下索引文件找到对应的偏移量。根据偏移量找到对应的消息的地址值。
  • broker controller broker 有一个被选举为 controller。负责管理 partition 和 replicas 的状态 例如 partition leader 故障,由 controller 负责从 isr 的 follower 中选举出一个新的 leader。当某个 partition 数量发生变化的时候,controller 来负责重新分配消费者。
  • Hw 与 Leo
    hw 表示 consumer 可以消费到的最高的 partition 偏移量。为了保证 partiton 中 leader 和 follower 的数据一致性

    leo 表示 follower 当前最后一个写入消息的位置。

    leader 新写入的消息。consumer 不能立刻消费。等到同步完成后,更新 hw。消息才能被消费

    • Zookeeper
 从 kafka 0.9 版本之后,zk 的工作变的很简单,负责维护和协调 borker。broker controller 的选举工作。zk 中存放着 各个 topic 主题的分区信息,分区的 leader 信息等。* Coordinator
是 broker 上的一个进程。管理 consumer group 中的各个成员,主要用于 offset 位移的管理和 rebalance。* Rebalance
 当分区数量发生变化的时候,或者消费者组中的消费者数量发送变化的时候,将 partiton 重新分配到不同的消费者。*offset commit
 consumer 消费一批消息后,需要将消费完的 offset 提交给 broker。让 borker 记录下哪些消息是消费过的。系统会将提交的 offset 做完消息写入到 _consumer_offsets 主题的 partiton 中。key 为消费者的 id。根据 key 计算出 hash 值,然后再将 hash 与 50 取模,余数就是对应的 partition 编号。

正文完
 0