关于kafka:一Kafka初识别

一.Kafka概述

1.1 音讯队列简介

音讯队列就是一个寄存音讯的容器(MQ)，当咱们须要应用音讯的应用能够从中取出音讯。
次要类型有两种，点对点音讯队列和公布-订阅者音讯队列.

1.点对点音讯队列

音讯生产者生产音讯发送到音讯队列中，而后音讯消费者从Queue中取出并且生产音讯。
音讯被生产当前，Queue中不再有存储，所以音讯消费者不可能生产到曾经被生产的音讯。
点对点音讯队列模式反对存在多个消费者，然而对一个音讯而言，只会有一个消费者能够生产。

2.公布-订阅音讯队列

音讯生产者（公布）将音讯公布到topic中，同时有多个音讯消费者（订阅）生产该音讯。和点对点形式不同，公布到topic的音讯会被所有订阅者生产。数据被生产后不会立马删除。在公布-订阅音讯零碎中，音讯的生产者称为发布者，消费者称为订阅者。

1.2 kafka介绍

Kafka是一个分布式的基于公布/订阅模式的音讯队列，具备高性能、长久化、多正本备份、横向扩大能力。生产者往队列里写音讯，消费者从队列里取音讯进行业务逻辑。个别在架构设计中起到解耦、削峰、异步解决的作用。
次要利用场景是：日志收集零碎和音讯零碎。

1.3 Kafka术语

在了解kafa之前，先理解下kafka的术语，见下图

1）broker
kafka急大众蕴含一个或多个服务器，服务器节点就称之为broker。

2）Topic
每条公布到kafk的音讯都有一个类别，这个类别就是topic。
物理上不同Topic的音讯离开存储，逻辑上一个Topic的音讯尽管保留于一个或多个broker上但用户只需指定音讯的Topic即可生产或生产数据而不用关怀数据存于何处

3）Partition
topic中的数据会被宰割为一个或者多个Partition。每个topic至多一个Partition。
每个Partition中的数据应用多个segment文件存储。Partition中的数据是有序的，但不同的Partition间的数据失落数据的程序，如果topic有多个Partition，那生产数据时不能保证数据的程序，在须要严格保障音讯程序的场景下，Partition数据须要设置为1.

4）Producer
生产者，就数据的发布者，它将数据公布到kafka的topic中。
broker承受到发布者发送的音讯数据，将该音讯追加到以后用于追加数据的segment中。
发布者发送的音讯，存储到一个Partition中，生产者也能够指定数据存储的Partition。

5）Consumer
消费者也就是订阅者，从broker中读取数据，消费者能够读取多个topic中的数据。

6）Consumer Group
每个Consumer属于一个特定的Consumer Group。

7）Leader
每个Partition有多个正本，其中有且仅有一个作为Leader，Leader负责以后数据读写。

8）Follower
Follower追随Leader，所有读写申请都通过Leader，数据变更会播送给所有Follower，Follower与Leader保持数据同步。
如果Leader生效，则从Follower中选举出一个新的Leader。当Follower与Leader挂掉、卡住或者同步太慢，leader会把这个follower从“in sync replicas”（ISR）列表中删除，从新创立一个Follower。

二.为什么应用kafka

当然更精确的说，为什么要应用队列？kafka只是咱们抉择的队列。

2.1 解耦

举一个例子，咱们有一个A零碎，它要把数据发到B、C两个零碎，这时候来了一个需要，D零碎说“我也须要A零碎的数据，你发过来吧”，负责A零碎的程序员开始改代码，没有费多少力量，批改好了。
过了两天，D零碎说“我当初不须要A零碎的数据了。”
A：“。。。。”
又过了两天，D零碎“A零碎，不行啊，我还是得须要你的数据。”
周而复始，负责A零碎的程序员“心态崩了。。。”

那咱们当初引入了Kafka，当然这并不只是Kafka的劣势，其余音讯队列同样能够实现解耦哦，具体依据业务状况来抉择，这里只说kafka。

有了kafka后，当初A的数据只发送到kafka中，其他人想要应用数据从kafka中取就是了。
这样A零碎就跟其余零碎解耦了。

2.2 异步通信

假设这样一个场景，还是A零碎，从浏览器承受了一个申请，在本人本地写库，速度1ms，之后须要BC两零碎也要写库，但速度要慢，B零碎须要600ms，C零碎须要500ms，这个时候用户从浏览器发动申请到失去相应须要1ms+600ms+800ms，那用户体验必定不好。

但应用音讯队列能够实现异步解耦
A零碎取得申请后，发送两条音讯到音讯队列，假设只有2ms实现，之后A就能够响应用户了，总共耗时1ms+2ms，也就是3ms，那用户体验必定不差，这就是异步通信。

2.3 冗余

有些状况下，解决数据的过程可能会失败，这时候数据除非被长久化，佛足额就会失落。
音讯队列把数据进行长久化，直到他们曾经被齐全解决，通过这种形式躲避了数据失落的危险。

2.4 削峰

还是举例，平时A零碎，每秒并发量也就是100左右，这时赶上双11，并发量可是能突增到50k以上，这对系统还有数据库的压力可是极大的，搞不好就把零碎搞解体了。
就像咱们mysql，每秒2000多的并发申请就
然而双11一过，又回到日常100左右并发。

这时候，我引入音讯队列，申请先进入音讯队列中，假设每秒5k个，A零碎从音讯队列拉取申请，每秒解决3k个，音讯队列以5k个申请进入，3k个申请被拉取出去，这样就能够顶住顶峰期间的拜访压力，不会因为突发的超顶峰负荷导致系统解体。

2.5 可恢复性

A零碎把数据发到音讯队列中，B从音讯队列中拉取数据，忽然B挂掉了，但队列中保留的数据还在，所以当B复原后，还能够持续解决之前的数据。

3.罕用MQ介绍

3.1 RabbitMQ

RabbitMQ是应用Erlang编写的一个开源的音讯队列，反对很多的协定：AMQP，XMPP, SMTP, STOMP。
它反对多种语言，Python、Java、Ruby、C、PHP等，反对事务、公布确认和音讯长久化。
那个很火的Openstack中用到的就是RabbitMQ。

3.2 Redis

Redis是一个NoSql数据库，基于k-v对，尽管是一个k-v的NoSql数据，但自身反对MQ性能。
同样很多语言都反对Redis，像会话缓存、音讯队列，还有流动排行榜等。
对于RabbitMQ和Redis的入队和入列性能测试，对两者出入队操作，各执行100万次，每10万次记录一次执行工夫，测试数据别离为128Bytes、512Bytes、1K和10K四个不同大小的数据。
结果表明：
入队时，当数据比拟小时Redis的性能要高于RabbitMQ，而如果数据大小超过了10K，Redis则慢的无法忍受；
出队时，无论数据大小，Redis都体现出十分好的性能，而RabbitMQ的出队性能则远低于Redis。

在抉择MQ时，要结合实际业务状况来抉择。
Redis是轻量级、高并发、提早敏感，在做缓存、即时数据分析等场景能够思考。

3.3 ActiveMQ

性能比拟差，版本迭代慢，当初应用的应该不多了。

3.4 RocketMQ

阿里出品，Java系开源我的项目，
参考文档：http://rocketmq.apache.org/

3.5 Kafka

Apache下的一个子项目，这是一个分布式公布/订阅音讯队列零碎，咱们hadoop生态中，就应用kafka。

关于kafka:一Kafka初识别

一.Kafka概述

1.1 音讯队列简介

1.2 kafka介绍

1.3 Kafka术语

二.为什么应用kafka

2.1 解耦

2.2 异步通信

2.3 冗余

2.4 削峰

2.5 可恢复性

3.罕用MQ介绍

3.1 RabbitMQ

3.2 Redis

3.3 ActiveMQ

3.4 RocketMQ

3.5 Kafka

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于kafka:一Kafka初识别

一.Kafka概述

1.1 音讯队列简介

1.2 kafka介绍

1.3 Kafka术语

二.为什么应用kafka

2.1 解耦

2.2 异步通信

2.3 冗余

2.4 削峰

2.5 可恢复性

3.罕用MQ介绍

3.1 RabbitMQ

3.2 Redis

3.3 ActiveMQ

3.4 RocketMQ

3.5 Kafka

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复