关于java:MQ消息中间件面试能问些什么

42次阅读

共计 13097 个字符,预计需要花费 33 分钟才能阅读完成。

MQ 消息中间件,面试能问些什么?

为什么应用音讯队列?音讯队列的长处和毛病?

kafka、activemq、rabbitmq、rocketmq 都有什么优缺点?

面试官角度剖析:

(1)你知不知道你们零碎里为什么要用音讯队列这个货色?

(2)既然用了音讯队列这个货色,你知不知道用了有什么益处?

(3)既然你用了 MQ,那么过后为什么选用这一款 MQ?

1. 为什么应用音讯队列?

面试官问这个问题的冀望之一的答复是,你们公司有什么业务场景,这个业务场景有什么技术挑战,如果不必 MQ 可能会很麻烦,然而再用了之后带来了很多益处。

音讯队列的常见应用场景有很多然而外围的有三个:解耦、异步、削峰

解耦

场景形容:A 零碎发送个数据到 BCD 三个零碎,接口调用发送,那如果 E 零碎也要这个数据呢?那如果 C 零碎当初不须要了呢?当初 A 零碎又要发送第二种数据了呢?A 零碎负责人解体中 … 再来点解体的事儿,A 零碎要时时刻刻思考 BCDE 四个零碎如果挂了怎么办?那我要不要重发?我要不要把音讯存起来?头发都白了啊 …

应用了 MQ 之后的解耦场景

面试技巧:你须要思考下,你负责的零碎中是否有相似的场景,就是一个零碎或者一个模块,调用了多个零碎或者模块,相互之间的调用很简单,保护起来很麻烦。然而其实这个调用是不须要间接同步调用接口的,如果 MQ 给他异步化解耦也是能够的,你就须要去思考在你的我的项目里是不是能够使用这个 MQ 去进行零碎解耦。

异步

场景形容:零碎 A 承受一个申请,须要在本人本地写库,还须要在零碎 BCD 三个零碎写库,本人本地写库须要 3ms。BCD 别离须要 300ms、450ms、200ms。最终总好时长:953ms,靠近 1s。给用户的体验感觉一点也不好。

不必 MQ 的同步高延时申请场景

应用 MQ 异步化之后的接口性能优化

削峰

场景形容:每天 0 点到 11 点,零碎 A 惊涛骇浪,每秒并发申请数量就 100 个。后果每一一到 11 点到 1 点,每秒并发申请数量就会暴增大 1 万条。然而零碎最大的解决能力就只能每秒钟解决 1000 个申请。

没有用 MQ 的时候高峰期零碎被打死的场景

应用 MQ 来进行削峰的场景

2. 音讯队列的有点和毛病?

长处:非凡场景下解耦、异步、削峰。

毛病:

零碎可用性升高:零碎引入的内部依赖越多,越容易挂掉,原本你就是 A 零碎调用 BCD 三个零碎的接口就好了,人 ABCD 四个零碎好好的没什么问题,你偏加个 MQ 进来,万一 MQ 挂了怎么办,整套零碎解体了,就完蛋了

零碎复杂性进步:硬生生加个 MQ 进来,你怎么保障音讯没有反复生产?怎么解决音讯失落的状况?怎么保障消息传递的程序性?

一致性问题:零碎 A 解决完了间接返回胜利了,人家都认为你这个申请胜利了;但问题是,要是 BCD 三个零碎哪里 BD 零碎胜利了,后果 C 零碎写库失败了,咋整?数据就不统一了,


所以音讯队列是一种非常复杂的架构,引入它有很多益处,然而也得针对他带来的害处做各种额定的技术计划和架构来躲避掉。做好之后你会发现零碎复杂度晋升了一个数量积,然而关键时刻,用,还是要用的。

3. kafka、activemq、rabbitmq、rocketmq 都有什么优缺点?

个性ActiveMQRabbitMQRocketMQKafka
单机吞吐量万级,吞吐量比 RocketMQ 和 Kafka 要低了一个数量级万级,吞吐量比 RocketMQ 和 Kafka 要低了一个数量级10 万级,RocketMQ 也是能够撑持高吞吐的一种 MQ10 万级别,这是 kafka 最大的长处,就是吞吐量高。个别配合大数据类的零碎来进行实时数据计算、日志采集等场景
topic 数量对吞吐量的影响 topic 能够达到几百,几千个的级别,吞吐量会有较小幅度的降落这是 RocketMQ 的一大劣势,在等同机器下,能够撑持大量的 topictopic 从几十个到几百个的时候,吞吐量会大幅度降落所以在等同机器下,kafka 尽量保障 topic 数量不要过多。如果要撑持大规模 topic,须要减少更多的机器资源
时效性ms 级微秒级,这是 rabbitmq 的一大特点,提早是最低的ms 级提早在 ms 级以内
可用性高,基于主从架构实现高可用性高,基于主从架构实现高可用性十分高,分布式架构十分高,kafka 是分布式的,一个数据多个正本,多数机器宕机,不会失落数据,不会导致不可用
音讯可靠性有较低的概率失落数据 通过参数优化配置,能够做到 0 失落通过参数优化配置,音讯能够做到 0 失落
性能反对MQ 畛域的性能极其齐备基于 erlang 开发,所以并发能力很强,性能极其好,延时很低MQ 性能较为欠缺,还是分布式的,扩展性好性能较为简单,次要反对简略的 MQ 性能,在大数据畛域的实时计算以及日志采集被大规模应用,是事实上的规范
优劣势总结十分成熟,功能强大,在业内大量的公司以及我的项目中都有利用 偶然会有较低概率失落音讯 而且当初社区以及国内利用都越来越少,官网社区当初对 ActiveMQ 5.x 保护越来越少,几个月才公布一个版本 而且的确次要是基于解耦和异步来用的,较少在大规模吞吐的场景中应用erlang 语言开发,性能极其好,延时很低;吞吐量到万级,MQ 性能比拟齐备而且开源提供的治理界面十分棒,用起来很好用社区绝对比拟沉闷,简直每个月都公布几个版本分在国内一些互联网公司近几年用 rabbitmq 也比拟多一些然而问题也是不言而喻的,RabbitMQ 的确吞吐量会低一些,这是因为他做的实现机制比拟重。而且 erlang 开发,国内有几个公司有实力做 erlang 源码级别的钻研和定制?如果说你没这个实力的话,的确偶然会有一些问题,你很难去看懂源码,你公司对这个货色的掌控很弱,根本职能依赖于开源社区的疾速保护和修复 bug。而且 rabbitmq 集群动静扩大会很麻烦,不过这个我感觉还好。其实次要是 erlang 语言自身带来的问题。很难读源码,很难定制和掌控。接口简略易用,而且毕竟在阿里大规模利用过,有阿里品牌保障日解决音讯上百亿之多,能够做到大规模吞吐,性能也十分好,分布式扩大也很不便,社区保护还能够,可靠性和可用性都是 ok 的,还能够撑持大规模的 topic 数量,反对简单 MQ 业务场景而且一个很大的劣势在于,阿里出品都是 java 系的,咱们能够本人浏览源码,定制本人公司的 MQ,能够掌控社区活跃度绝对较为个别,不过也还能够,文档相对来说简略一些,而后接口这块不是依照规范 JMS 标准走的有些零碎要迁徙须要批改大量代码还有就是阿里出台的技术,你得做好这个技术万一被摈弃,社区黄掉的危险,那如果你们公司有技术实力我感觉用 RocketMQ 挺好的kafka 的特点其实很显著,就是仅仅提供较少的外围性能,然而提供超高的吞吐量,ms 级的提早,极高的可用性以及可靠性,而且分布式能够任意扩大 同时 kafka 最好是撑持较少的 topic 数量即可,保障其超高吞吐量 而且 kafka 惟一的一点劣势是有可能音讯反复生产,那么对数据准确性会造成极其轻微的影响,在大数据畛域中以及日志采集中,这点轻微影响能够疏忽 这个个性人造适宜大数据实时计算以及日志收集

1. 引入音讯队列之后如何保障其高可用性?

(1)RabbitMQ 的高可用性

RabbitMQ 是比拟有代表性的,因为是基于主从做高可用性的,咱们就以他为例子解说第一种 MQ 的高可用性怎么实现。

rabbitmq 有三种模式:单机模式,一般集群模式,镜像集群模式

(1.1)单机模式

就是 demo 级别的,个别就是你本地启动了玩玩儿的,没人生产用单机模式

(1.2)一般集群模式

意思就是在多台机器上启动多个 rabbitmq 实例,每个机器启动一个。然而你创立的 queue,只会放在一个 rabbtimq 实例上,然而每个实例都同步 queue 的元数据。完了你生产的时候,实际上如果连贯到了另外一个实例,那么那个实例会从 queue 所在实例上拉取数据过去。

这种形式的确很麻烦,也不怎么好,没做到所谓的分布式,就是个一般集群。因为这导致你要么消费者每次随机连贯一个实例而后拉取数据,要么固定连贯那个 queue 所在实例生产数据,前者有数据拉取的开销,后者导致单实例性能瓶颈。

而且如果那个放 queue 的实例宕机了,会导致接下来其余实例就无奈从那个实例拉取,如果你开启了音讯长久化,让 rabbitmq 落地存储音讯的话,音讯不肯定会丢,得等这个实例复原了,而后才能够持续从这个 queue 拉取数据。

所以这个事儿就比拟难堪了,这就没有什么所谓的高可用性可言了,这计划次要是进步吞吐量的,就是说让集群中多个节点来服务某个 queue 的读写操作。

(1.3)镜像集群模式

这种模式,才是所谓的 rabbitmq 的高可用模式,跟一般集群模式不一样的是,你创立的 queue,无论元数据还是 queue 里的音讯都会存在于多个实例上,而后每次你写音讯到 queue 的时候,都会主动把音讯到多个实例的 queue 里进行音讯同步。

这样的话,益处在于,你任何一个机器宕机了,没事儿,别的机器都能够用。害处在于,第一,这个性能开销也太大了吧,音讯同步所有机器,导致网络带宽压力和耗费很重!第二,这么玩儿,就没有扩展性可言了,如果某个 queue 负载很重,你加机器,新增的机器也蕴含了这个 queue 的所有数据,并没有方法线性扩大你的 queue

那么怎么开启这个镜像集群模式呢?我这里简略说一下,防止面试人家问你你不晓得,其实很简略 rabbitmq 有很好的治理控制台,就是在后盾新增一个策略,这个策略是镜像集群模式的策略,指定的时候能够要求数据同步到所有节点的,也能够要求就同步到指定数量的节点,而后你再次创立 queue 的时候,利用这个策略,就会主动将数据同步到其余的节点下来了。

(2)kafka 的高可用性

kafka 一个最根本的架构意识:多个 broker 组成,每个 broker 是一个节点;你创立一个 topic,这个 topic 能够划分为多个 partition,每个 partition 能够存在于不同的 broker 上,每个 partition 就放一部分数据。

这就是人造的分布式音讯队列,就是说一个 topic 的数据,是扩散放在多个机器上的,每个机器就放一部分数据。

实际上 rabbitmq 之类的,并不是分布式音讯队列,他就是传统的音讯队列,只不过提供了一些集群、HA 的机制而已,因为无论怎么玩儿,rabbitmq 一个 queue 的数据都是放在一个节点里的,镜像集群下,也是每个节点都放这个 queue 的残缺数据。

kafka 0.8 以前,是没有 HA 机制的,就是任何一个 broker 宕机了,那个 broker 上的 partition 就废了,没法写也没法读,没有什么高可用性可言。

kafka 0.8 当前,提供了 HA 机制,就是 replica 正本机制。每个 partition 的数据都会同步到吉他机器上,造成本人的多个 replica 正本。而后所有 replica 会选举一个 leader 进去,那么生产和生产都跟这个 leader 打交道,而后其余 replica 就是 follower。写的时候,leader 会负责把数据同步到所有 follower 下来,读的时候就间接读 leader 上数据即可。只能读写 leader?很简略,要是你能够随便读写每个 follower,那么就要 care 数据一致性的问题,零碎复杂度太高,很容易出问题。kafka 会平均的将一个 partition 的所有 replica 散布在不同的机器上,这样才能够进步容错性。

这么搞,就有所谓的高可用性了,因为如果某个 broker 宕机了,没事儿,那个 broker 下面的 partition 在其余机器上都有正本的,如果这下面有某个 partition 的 leader,那么此时会从新选举一个新的 leader 进去,大家持续读写那个新的 leader 即可。这就有所谓的高可用性了。

写数据的时候,生产者就写 leader,而后 leader 将数据落地写本地磁盘,接着其余 follower 本人被动从 leader 来 pull 数据。一旦所有 follower 同步好数据了,就会发送 ack 给 leader,leader 收到所有 follower 的 ack 之后,就会返回写胜利的音讯给生产者。(当然,这只是其中一种模式,还能够适当调整这个行为)

生产的时候,只会从 leader 去读,然而只有一个音讯曾经被所有 follower 都同步胜利返回 ack 的时候,这个音讯才会被消费者读到。

实际上这块机制,讲深了,是能够十分之深刻的,然而我还是回到咱们这个课程的主题和定位,聚焦面试,至多你听到这里大抵明确了 kafka 是如何保障高可用机制的了,对吧?不至于无所不知,现场还能给面试官画画图。要遇上面试官的确是 kafka 高手,深挖了问,那你只能说不好意思,太深刻的你没钻研过。

然而大家肯定要明确,这个事件是要衡量的,你当初是要疾速突击常见面试题体系,而不是要深刻学习 kafka,要深刻学习 kafka,你是没那么多工夫的。你只能确保,你之前兴许压根儿不晓得这块,然而当初你晓得了,面试被问到,你大略能够说一说。而后很多其余的候选人,兴许还不如你,没看过这个,被问到了压根儿答不进去,相比之下,你还能说点进去,大略就是这个意思了。

2. 如何保障音讯不被反复生产(如何保障音讯生产时的幂等性)?

其实这个很常见的一个问题,这俩问题根本能够连起来问。既然是生产音讯,那必定要思考思考会不会反复生产?能不能防止反复生产?或者反复生产了也别造成零碎异样能够吗?这个是 MQ 畛域的根本问题,其实实质上还是问你应用音讯队列如何保障幂等性,这个是你架构里要思考的一个问题。

首先就是比方 rabbitmq、rocketmq、kafka,都有可能会呈现生产反复生产的问题,失常。因为这问题通常不是 mq 本人保障的,是给你保障的。而后咱们挑一个 kafka 来举个例子,说说怎么反复生产吧。

kafka 实际上有个 offset 的概念,就是每个音讯写进去,都有一个 offset,代表他的序号,而后 consumer 生产了数据之后,每隔一段时间,会把本人生产过的音讯的 offset 提交一下,代表我曾经生产过了,下次我要是重启啥的,你就让我持续从上次生产到的 offset 来持续生产吧。

然而凡事总有意外,比方咱们之前生产常常遇到的,就是你有时候重启零碎,看你怎么重启了,如果碰到点焦急的,间接 kill 过程了,再重启。这会导致 consumer 有些音讯解决了,然而没来得及提交 offset,难堪了。重启之后,多数音讯会再次生产一次。

其实反复生产不可怕,可怕的是你没思考到反复生产之后,怎么保障幂等性。

给你举个例子吧。假如你有个零碎,生产一条往数据库里插入一条,要是你一个音讯反复两次,你不就插入了两条,这数据不就错了?然而你要是生产到第二次的时候,本人判断一下曾经生产过了,间接扔了,不就保留了一条数据?

一条数据反复呈现两次,数据库里就只有一条数据,这就保障了零碎的幂等性

幂等性,我艰深点说,就一个数据,或者一个申请,给你反复来屡次,你得确保对应的数据是不会扭转的,不能出错。

那所以第二个问题来了,怎么保障音讯队列生产的幂等性?

其实还是得联合业务来思考,我这里给几个思路:

(1)比方你拿个数据要写库,你先依据主键查一下,如果这数据都有了,你就别插入了,update 一下好吧

(2)比方你是写 redis,那没问题了,反正每次都是 set,人造幂等性

(3)比方你不是下面两个场景,那做的略微简单一点,你须要让生产者发送每条数据的时候,外面加一个全局惟一的 id,相似订单 id 之类的货色,而后你这里生产到了之后,先依据这个 id 去比方 redis 里查一下,之前生产过吗?如果没有生产过,你就解决,而后这个 id 写 redis。如果生产过了,那你就别解决了,保障别反复解决雷同的音讯即可。

还有比方基于数据库的惟一键来保障反复数据不会反复插入多条,咱们之火线上零碎就有这个问题,就是拿到数据的时候,每次重启可能会有反复,因为 kafka 消费者还没来得及提交 offset,反复数据拿到了当前咱们插入的时候,因为有惟一键束缚了,所以反复数据只会插入报错,不会导致数据库中呈现脏数据

如何保障 MQ 的生产是幂等性的,须要联合具体的业务来看


如何保障音讯的幂等性

3. 如何保障音讯的牢靠传输(如何解决音讯失落的问题)?

这个是必定的,用 mq 有个根本准则,就是数据不能多一条,也不能少一条,不能多,就是方才说的反复生产和幂等性问题。不能少,就是说这数据别搞丢了。那这个问题你必须得考虑一下。

如果说你这个是用 mq 来传递十分外围的音讯,比如说计费,扣费的一些音讯,因为我以前设计和研发过一个公司十分外围的广告平台,计费零碎,计费零碎是很重的一个业务,操作是很耗时的。所以说广告零碎整体的架构外面,实际上是将计费做成异步化的,而后两头就是加了一个 MQ。

咱们过后为了确保说这个 MQ 传递过程中相对不会把计费音讯给弄丢,花了很多的精力。广告主投放了一个广告,明明说好了,用户点击一次扣费 1 块钱。后果要是用户动不动点击了一次,扣费的时候搞的音讯丢了,咱们公司就会一直的少几块钱,几块钱,千里之行; 始于足下,这个就对公司是一个很大的损失。

面试题分析

这个丢数据,mq 个别分为两种,要么是 mq 本人弄丢了,要么是咱们生产的时候弄丢了。咱们从 rabbitmq 和 kafka 别离来剖析一下

rabbitmq 这种 mq,一般来说都是承载公司的外围业务的,数据是相对不能弄丢的

RabbitMQ 可能存在的数据失落问题

(1)rabbitmq

1)生产者弄丢了数据

生产者将数据发送到 rabbitmq 的时候,可能数据就在半路给搞丢了,因为网络啥的问题,都有可能。

此时能够抉择用 rabbitmq 提供的事务性能,就是生产者发送数据之前开启 rabbitmq 事务(channel.txSelect),而后发送音讯,如果音讯没有胜利被 rabbitmq 接管到,那么生产者会收到异样报错,此时就能够回滚事务(channel.txRollback),而后重试发送音讯;如果收到了音讯,那么能够提交事务(channel.txCommit)。然而问题是,rabbitmq 事务机制一搞,基本上吞吐量会下来,因为太耗性能。

所以一般来说,如果你要确保说写 rabbitmq 的音讯别丢,能够开启 confirm 模式,在生产者那里设置开启 confirm 模式之后,你每次写的音讯都会调配一个惟一的 id,而后如果写入了 rabbitmq 中,rabbitmq 会给你回传一个 ack 音讯,通知你说这个音讯 ok 了。如果 rabbitmq 没能解决这个音讯,会回调你一个 nack 接口,通知你这个音讯接管失败,你能够重试。而且你能够联合这个机制本人在内存里保护每个音讯 id 的状态,如果超过肯定工夫还没接管到这个音讯的回调,那么你能够重发。

事务机制和 cnofirm 机制最大的不同在于,事务机制是同步的,你提交一个事务之后会阻塞在那儿,然而 confirm 机制是异步的,你发送个音讯之后就能够发送下一个音讯,而后那个音讯 rabbitmq 接管了之后会异步回调你一个接口告诉你这个音讯接管到了。

所以个别在生产者这块防止数据失落,都是用 confirm 机制的。

2)rabbitmq 弄丢了数据

就是 rabbitmq 本人弄丢了数据,这个你必须开启 rabbitmq 的长久化,就是音讯写入之后会长久化到磁盘,哪怕是 rabbitmq 本人挂了,复原之后会主动读取之前存储的数据,个别数据不会丢。除非极其常见的是,rabbitmq 还没长久化,本人就挂了,可能导致大量数据会失落的,然而这个概率较小。

设置长久化有两个步骤,第一个是创立 queue 的时候将其设置为长久化的,这样就能够保障 rabbitmq 长久化 queue 的元数据,然而不会长久化 queue 里的数据;第二个是发送音讯的时候将音讯的 deliveryMode 设置为 2,就是将音讯设置为长久化的,此时 rabbitmq 就会将音讯长久化到磁盘下来。必须要同时设置这两个长久化才行,rabbitmq 哪怕是挂了,再次重启,也会从磁盘上重启复原 queue,复原这个 queue 里的数据。

而且长久化能够跟生产者那边的 confirm 机制配合起来,只有音讯被长久化到磁盘之后,才会告诉生产者 ack 了,所以哪怕是在长久化到磁盘之前,rabbitmq 挂了,数据丢了,生产者收不到 ack,你也是能够本人重发的。

哪怕是你给 rabbitmq 开启了长久化机制,也有一种可能,就是这个音讯写到了 rabbitmq 中,然而还没来得及长久化到磁盘上,后果不巧,此时 rabbitmq 挂了,就会导致内存里的一点点数据会失落。

3)生产端弄丢了数据

rabbitmq 如果失落了数据,次要是因为你生产的时候,刚生产到,还没解决,后果过程挂了,比方重启了,那么就难堪了,rabbitmq 认为你都生产了,这数据就丢了。

这个时候得用 rabbitmq 提供的 ack 机制,简略来说,就是你敞开 rabbitmq 主动 ack,能够通过一个 api 来调用就行,而后每次你本人代码里确保解决完的时候,再程序里 ack 一把。这样的话,如果你还没解决完,不就没有 ack?那 rabbitmq 就认为你还没解决完,这个时候 rabbitmq 会把这个生产调配给别的 consumer 去解决,音讯是不会丢的。

(2)kafka

1)生产端弄丢了数据

惟一可能导致消费者弄丢数据的状况,就是说,你那个生产到了这个音讯,而后消费者那边主动提交了 offset,让 kafka 认为你曾经生产好了这个音讯,其实你刚筹备解决这个音讯,你还没解决,你本人就挂了,此时这条音讯就丢咯。

这不是一样么,大家都晓得 kafka 会主动提交 offset,那么只有敞开主动提交 offset,在解决完之后本人手动提交 offset,就能够保证数据不会丢。然而此时的确还是会反复生产,比方你刚解决完,还没提交 offset,后果本人挂了,此时必定会反复生产一次,本人保障幂等性就好了。

生产环境碰到的一个问题,就是说咱们的 kafka 消费者生产到了数据之后是写到一个内存的 queue 里先缓冲一下,后果有的时候,你刚把音讯写入内存 queue,而后消费者会主动提交 offset。

而后此时咱们重启了零碎,就会导致内存 queue 里还没来得及解决的数据就失落了

2)kafka 弄丢了数据

这块比拟常见的一个场景,就是 kafka 某个 broker 宕机,而后从新选举 partiton 的 leader 时。大家想想,要是此时其余的 follower 刚好还有些数据没有同步,后果此时 leader 挂了,而后选举某个 follower 成 leader 之后,他不就少了一些数据?这就丢了一些数据啊。


生产环境也遇到过,咱们也是,之前 kafka 的 leader 机器宕机了,将 follower 切换为 leader 之后,就会发现说这个数据就丢了

所以此时个别是要求起码设置如下 4 个参数:

  • 给这个 topic 设置 replication.factor 参数:这个值必须大于 1,要求每个 partition 必须有至多 2 个正本
  • 在 kafka 服务端设置 min.insync.replicas 参数:这个值必须大于 1,这个是要求一个 leader 至多感知到有至多一个 follower 还跟本人保持联系,没落伍,这样能力确保 leader 挂了还有一个 follower 吧
  • 在 producer 端设置 acks=all:这个是要求每条数据,必须是写入所有 replica 之后,能力认为是写胜利了
  • 在 producer 端设置 retries=MAX(很大很大很大的一个值,有限次重试的意思):这个是要求一旦写入失败,就有限重试,卡在这里了

咱们生产环境就是依照上述要求配置的,这样配置之后,至多在 kafka broker 端就能够保障在 leader 所在 broker 产生故障,进行 leader 切换时,数据不会失落

3)生产者会不会弄丢数据

如果依照上述的思路设置了 ack=all,肯定不会丢,要求是,你的 leader 接管到音讯,所有的 follower 都同步到了音讯之后,才认为本次写胜利了。如果没满足这个条件,生产者会主动一直的重试,重试有限次。

1. 如何保障音讯的程序性?

其实这个也是用 MQ 的时候必问的话题,第一看看你理解不理解程序这个事儿?第二看看你有没有方法保障音讯是有程序的?这个生产零碎中常见的问题。

我举个例子,咱们以前做过一个 mysql binlog 同步的零碎,压力还是十分大的,日同步数据要达到上亿。mysql -> mysql,常见的一点在于说大数据 team,就须要同步一个 mysql 库过去,对公司的业务零碎的数据做各种简单的操作。

你在 mysql 里增删改一条数据,对应进去了增删改 3 条 binlog,接着这三条 binlog 发送到 MQ 外面,到生产进去顺次执行,起码得保障人家是依照程序来的吧?不然原本是:减少、批改、删除;你楞是换了程序给执行成删除、批改、减少,不全错了么。

原本这个数据同步过去,应该最初这个数据被删除了;后果你搞错了这个程序,最初这个数据保留下来了,数据同步就出错了。

先看看程序会错乱的俩场景

(1)rabbitmq:一个 queue,多个 consumer,这不显著乱了


(2)kafka:一个 topic,一个 partition,一个 consumer,外部多线程,这不也显著乱了

那如何保障音讯的程序性呢?简略简略

(1)rabbitmq:拆分多个 queue,每个 queue 一个 consumer,就是多一些 queue 而已,的确是麻烦点;


或者就一个 queue 然而对应一个 consumer,而后这个 consumer 外部用内存队列做排队,而后分发给底层不同的 worker 来解决

(2)kafka:一个 topic,一个 partition,一个 consumer,外部单线程生产,写 N 个内存 queue,而后 N 个线程别离生产一个内存 queue 即可


如何解决音讯队列的延时以及过期生效问题?音讯队列满了当前该怎么解决?有几百万音讯继续积压几小时,说说怎么解决?

你看这问法,其实实质针对的场景,都是说,可能你的生产端出了问题,不生产了,或者生产的极其极其慢。接着就坑爹了,可能你的音讯队列集群的磁盘都快写满了,都没人生产,这个时候怎么办?或者是整个这就积压了几个小时,你这个时候怎么办?或者是你积压的工夫太长了,导致比方 rabbitmq 设置了音讯过期工夫后就没了怎么办?

所以就这事儿,其实线上挺常见的,个别不出,一出就是大 case,个别常见于,举个例子,生产端每次生产之后要写 mysql,后果 mysql 挂了,生产端 hang 那儿了,不动了。或者是生产端出了个什么叉子,导致生产速度极其慢。

对于这个事儿,咱们一个一个来梳理吧,先假如一个场景,咱们当初生产端出故障了,而后大量音讯在 mq 里积压,当初事变了,慌了

(1)大量音讯在 mq 里积压了几个小时了还没解决

几千万条数据在 MQ 里积压了七八个小时,从下午 4 点多,积压到了早晨很晚,10 点多,11 点多

这个是咱们实在遇到过的一个场景,的确是线上故障了,这个时候要不然就是修复 consumer 的问题,让他复原生产速度,而后傻傻的期待几个小时生产结束。这个必定不能在面试的时候说吧。

一个消费者一秒是 1000 条,一秒 3 个消费者是 3000 条,一分钟是 18 万条,1000 多万条

所以如果你积压了几百万到上千万的数据,即便消费者复原了,也须要大略 1 小时的工夫能力恢复过来

个别这个时候,只能操作长期紧急扩容了,具体操作步骤和思路如下:

1)先修复 consumer 的问题,确保其复原生产速度,而后将现有 cnosumer 都停掉

2)新建一个 topic,partition 是原来的 10 倍,长期建设好原先 10 倍或者 20 倍的 queue 数量

3)而后写一个长期的散发数据的 consumer 程序,这个程序部署下来生产积压的数据,生产之后不做耗时的解决,间接平均轮询写入长期建设好的 10 倍数量的 queue

4)接着长期征用 10 倍的机器来部署 consumer,每一批 consumer 生产一个长期 queue 的数据

5)这种做法相当于是长期将 queue 资源和 consumer 资源扩充 10 倍,以失常的 10 倍速度来生产数据

6)等疾速生产完积压数据之后,得复原原先部署架构,从新用原先的 consumer 机器来生产音讯

(2)这里咱们假如再来第二个坑

假如你用的是 rabbitmq,rabbitmq 是能够设置过期工夫的,就是 TTL,如果音讯在 queue 中积压超过肯定的工夫就会被 rabbitmq 给清理掉,这个数据就没了。那这就是第二个坑了。这就不是说数据会大量积压在 mq 里,而是大量的数据会间接搞丢。

这个状况下,就不是说要减少 consumer 生产积压的音讯,因为实际上没啥积压,而是丢了大量的音讯。咱们能够采取一个计划,就是批量重导,这个咱们之火线上也有相似的场景干过。就是大量积压的时候,咱们过后就间接抛弃数据了,而后等过了高峰期当前,比方大家一起喝咖啡熬夜到早晨 12 点当前,用户都睡觉了。

这个时候咱们就开始写程序,将失落的那批数据,写个长期程序,一点一点的查出来,而后从新灌入 mq 外面去,把白天丢的数据给他补回来。也只能是这样了。

假如 1 万个订单积压在 mq 外面,没有解决,其中 1000 个订单都丢了,你只能手动写程序把那 1000 个订单给查出来,手动发到 mq 里去再补一次

(3)而后咱们再来假如第三个坑

如果走的形式是音讯积压在 mq 里,那么如果你很长时间都没解决掉,此时导致 mq 都快写满了,咋办?这个还有别的方法吗?没有,谁让你第一个计划执行的太慢了,你长期写程序,接入数据来生产,生产一个抛弃一个,都不要了,疾速生产掉所有的音讯。而后走第二个计划,到了早晨再补数据吧。

1. 如果让你写一个音讯队列,该如何进行架构设计啊?说一下你的思路

其实聊到这个问题,个别面试官要考查两块:

(1)你有没有对某一个音讯队列做过较为深刻的原理的理解,或者从整体理解把握住一个 mq 的架构原理

(2)看看你的设计能力,给你一个常见的零碎,就是音讯队列零碎,看看你能不能从全局把握一下整体架构设计,给出一些关键点进去

其实答复这类问题,说白了,起码不求你看过那技术的源码,起码你大略晓得那个技术的基本原理,外围组成部分,根本架构形成,而后参照一些开源的技术把一个零碎设计进去的思路说一下就好

比如说这个音讯队列零碎,咱们来从以下几个角度来考虑一下

说实话,我个别面相似问题的时候,大部分人根本都会蒙,因为平时素来没有思考过相似的问题,大多数人就是平时埋头用,从来不去思考背地的一些货色。相似的问题,我常常问的还有,如果让你来设计一个 spring 框架你会怎么做?如果让你来设计一个 dubbo 框架你会怎么做?如果让你来设计一个 mybatis 框架你会怎么做?

其实答复这类问题,说白了,起码不求你看过那技术的源码,起码你大略晓得那个技术的基本原理,外围组成部分,根本架构形成,而后参照一些开源的技术把一个零碎设计进去的思路说一下就好

比如说这个音讯队列零碎,咱们来从以下几个角度来考虑一下

(1)首先这个 mq 得反对可伸缩性吧,就是须要的时候疾速扩容,就能够减少吞吐量和容量,那怎么搞?设计个分布式的零碎呗,参照一下 kafka 的设计理念,broker -> topic -> partition,每个 partition 放一个机器,就存一部分数据。如果当初资源不够了,简略啊,给 topic 减少 partition,而后做数据迁徙,减少机器,不就能够寄存更多数据,提供更高的吞吐量了?

(2)其次你得考虑一下这个 mq 的数据要不要落地磁盘吧?那必定要了,落磁盘,能力保障别过程挂了数据就丢了。那落磁盘的时候怎么落啊?程序写,这样就没有磁盘随机读写的寻址开销,磁盘程序读写的性能是很高的,这就是 kafka 的思路。

2. 其次你考虑一下你的 mq 的可用性啊?

这个事儿,具体参考咱们之前可用性那个环节解说的 kafka 的高可用保障机制。多正本 -> leader & follower -> broker 挂了从新选举 leader 即可对外服务。

(4)能不能反对数据 0 失落啊?能够的,参考咱们之前说的那个 kafka 数据零失落计划

其实一个 mq 必定是很简单的,面试官问你这个问题,其实是个凋谢题,他就是看看你有没有从架构角度整体构思和设计的思维以及能力。的确这个问题能够刷掉一大批人,因为大部分人平时不思考这些货色。

起源:blog.csdn.net/qq_29676623/article/details/85108070

欢送关注公众号【码农开花】一起学习成长
我会始终分享 Java 干货,也会分享收费的学习材料课程和面试宝典
回复:【计算机】【设计模式】有惊喜哦

正文完
 0