关于kafka:kafka的优缺点都有那些

Kafka是由Apache软件基金会开发的一个开源流解决平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式公布订阅音讯零碎，它能够解决消费者在网站中的所有动作流数据。

（1）长处：kafka的长处十分多

高性能：单机测试能达到 100w tps；
低延时：生产和生产的延时都很低，e2e的延时在失常的cluster中也很低；
可用性高：replicate + isr + 选举机制保障；
工具链成熟：监控运维治理计划齐全；
生态成熟：大数据场景必不可少 kafka stream.

（2）有余

无奈弹性扩容：对partition的读写都在partition leader所在的broker，如果该broker压力过大，也无奈通过新增broker来解决问题；
扩容老本高：集群中新增的broker只会解决新topic，如果要分担老topic-partition的压力，须要手动迁徙partition，这时会占用大量集群带宽；
消费者新退出和退出会造成整个生产组rebalance：导致数据反复生产，影响生产速度，减少e2e提早；
partition过多会使得性能显著降落：ZK压力大，broker上partition过多让磁盘程序写简直进化成随机写。

在理解了kafka的架构之后，你能够认真想一想，为什么kafka扩容这么吃力呢？其实这实质上和redis集群扩容是一样的！当redis集群呈现热key时，某个实例扛不住了，你通过加机器并不能解决什么问题，因为那个热key还是在之前的某个实例中，新扩容的实例起不到分流的作用。大数据培训kafka相似，它扩容有两种：新加机器（加broker）以及给topic减少partition。

给topic新加partition这个操作，你能够联想一下mysql的分表。比方用户订单表，因为量太大把它按用户id拆分成1024个子表user_order_{0..1023}，如果到前期发现还不够用，要减少这个分表数，就会比拟麻烦。因为分表总数增多，会让user_id的hash值发生变化，从而导致老的数据无奈查问。所以只能停服做数据迁徙，而后再从新上线。

kafka给topic新增partition一样的情理，比方在某些场景下msg蕴含key，那producer就要保障雷同的key放到雷同的partition。然而如果partition总量减少了，依据key去进行hash，比方 hash(key) % parition_num，失去的后果就不同，就无奈保障雷同的key存到同一个partition。

当然也能够在producer上实现一个自定义的partitioner，保障不论怎么扩partition雷同的key都落到雷同的partition上，然而这又会使得新减少的partition没有任何数据。

其实你能够发现一个问题，kafka的外围复杂度简直都在存储这一块。数据如何分片，如何高效的存储，如何高效地读取，如何保障一致性，如何从谬误中复原，如何扩容再均衡……