共计 3710 个字符,预计需要花费 10 分钟才能阅读完成。
案例背景
CAP 实践是分布式系统中最外围的基础理论,尽管在面试中,面试官不会直白地问你 CAP 实践的原理,然而在面试中遇到的分布式系统设计问题,都绕不开你对 CAP 的了解和思考。
而且在面试中,针对面试不同岗位的候选者,面试官的要求也会不一样,要求你答复的深度也不一样。所以在这一讲中,我会针对初中级研发工程师和高级研发工程师两个不同的角度,剖析面试思路。
案例剖析
置信只有学习过分布式技术的相干常识,基本上都晓得 CAP 实践指的是什么:C(Consistency)是数据一致性、A(Availability)是服务可用性、P(Partition tolerance)是分区容错性。
C、A、P 只能同时满足两个指标,而因为在分布式系统中,P 是必须要保留的,所以要在 C 和 A 间进行取舍。如果要保障服务的可用性,就抉择 AP 模型,而要保障一致性的话,就抉择 CP 模型。
很多候选者如果发现面试题(比方“为了数据容灾,咱们会做数据的主从备份,那么主从节点的数据一致性对调用端有什么影响呢?”)波及了对“CAP 的了解和思考”,会下意识地做出相似的答案:“CAP 实践形容了在呈现网络分区的状况下,要在 C 和 A 之间做取舍,所以会影响站在调用端的视角看零碎是不可用的”。如果是我的话,大略会给个及格分,并认为这样的答复,只能证实你有筹备,不能证实你有能力。
因为在面试中遇到实践问题时,单纯做浮于外表的概念性论述,很难向面试官证实你的技术能力。面试官会感觉你是一个刚接触分布式系统,或者对分布式系统了解不够深刻的研发,如果这恰好是你第一个面试题,会间接影响面试官对你的第一印象,甚至影响你的定级。
从我的教训登程,如果你想答得更好,你须要先把握 CAP 的原理、实践经验、技术认知,而后再联合具体的面试题具体分析。
问题解答
了解原理
当初有一个分布式系统 A,它有一个正本 A1,在失常状况下,客户端 Client 写数据到零碎 A,而后数据从 A 节点同步到 A1 节点,再返回给 Client 胜利状态。
这时,客户端 Client 从任何节点 A 或 A1 读取数据,都能读取到最新写入的数据,阐明 A 和 A1 的数据是统一的,并且 A 和 A1 也都是可用的。
但因为网络是不牢靠的,节点 A 和 A1 的网络随时会因为中断而呈现分区。所谓网络分区就是因为网络不通导致节点 A 和 A1 被隔离在不同的网络子集中,此时节点 A 的数据就不能及时同步到节点 A1 中了。
在分布式系统中,因为网络问题导致的网络分区是常态。也就是说呈现网络分区时,依据 CAP 实践,须要在 A 和 C 中进行取舍,即要么保证系统的可用性,要么保证数据一致性。
这里你要留神了,下面的例子有个大前提,就是零碎呈现了网络分区,但理论状况是,在绝大多数工夫里并不存在网络分区(网络不会经常出现问题)。那么还要进行三选二吗(CP 或者 AP)?
其实,不同的分布式系统要依据业务场景和业务需要在 CAP 三者中进行衡量。CAP 实践用于领导在零碎设计时须要掂量的因素,而非进行相对地抉择。
当网络没有呈现分区时,CAP 实践并没有给出掂量 A 和 C 的因素,但如果你做过理论的分布式系统设计,肯定会发现零碎数据同步的时延(Latency),即例子中节点 A 同步数据到节点 A1 的工夫才是掂量 A 和 C 最重要的因素,此时就不会有相对的 AP 模型还是 CP 模型了,而是源于对理论业务场景的综合考量。
因而,才会有如 PACELC「Reference1」这样的新模型优化原有的 CAP 实践,理论指导实际,实际优化实践。
依据 PACELC 模型的定义,如果有网络分区产生,零碎就必须在 A 和 C 之间获得均衡,否则(Else,即 PACELC 中的 E)当零碎运行在无网络分区状况下,零碎须要在 L(提早)和 C 之间获得均衡。
但了解到这个水平还不够,你还须要联合落地教训进行证实。
实践经验
你要意识到,互联网分布式的设计方案是数据一致性和零碎可用性的衡量,并不是非此即彼,这一点尤为重要。所以即便无奈做到强一致性(简略来讲强一致性就是在任何时刻所有的用户查问到的数据都是最新的),也能够依据本身的业务特点,采纳适当的形式来使零碎达到最终一致性。
这时就要引出 BASE 实践,它是 CAP 实践的延长。BASE 是 Basically Available(根本可用)、Soft State(软状态)和 Eventually Consistent(最终一致性)三个单词的简写,作用是保证系统的可用性,而后通过最终一致性来代替强一致性,它是目前分布式系统设计中最具指导意义的经验总结。那么在理论我的项目中,你如何通过 BASE 实践来领导设计实际呢?
BASE 中的根本可用指的是保障外围性能的根本可用,其实是做了“可用性”方面的斗争,比方:
- 电商网站在双十一大促等拜访压力较大的时候,敞开商品排行榜等主要性能的展现,从而保障商品交易主流程的可用性,这也是咱们常说的服务降级;
- 为了错开双十一高峰期,电商网站会将预售商品的领取工夫延后十到二十分钟,这就是流量削峰;
- 在你抢购商品的时候,往往会在队列中期待解决,这也是罕用的提早队列。
软状态和最终一致性指的是容许零碎中的数据存在中间状态,这同样是为了零碎可用性而就义一段时间窗内的数据一致性,从而保障最终的数据一致性的做法。
目前这种解决数据的形式简直成了互联网的标配设计模式,最经典的例子是在用户下单的时候不须要真正地扣减库存,而是仅在前台计个数,而后通过异步工作在后盾批量解决。
如果你想应聘的是初中级研发工程师,那么联合上述思路,从实践了解到落地实际,你曾经能够把 CAP 实践答得较为分明了。答复问题的逻辑能够参考我给出的倡议:
- 先充沛了解实践原理,不能仅浮在概念上;
- 其次须要有本人的思考,体现出你思考能力的不同;
- 而后将实践联合于实际,探讨理论中解决问题时的思考逻辑。
技术认知
如果你应聘的是高级研发工程师或架构师,在答复时,还要尽可能地展现常识体系和技术判断力,这是这两个岗位的基本素质。因为分布式技术盘根错节,各种技术又互相耦合,在面试中,如果你能通过一个 CAP 实践的知识点,扩大出一个脉络清晰的分布式核心技术常识体系,就会与其他人拉开差距。
分布式系统看起来就像一个计算机。计算机包含五大体系结构(即冯诺依曼结构),它有五大部件:别离是控制器、运算器、存储器、输出及输入。你能够这么了解:一个分布式系统也蕴含这五大部件,其中最重要的是计算与存储。计算与存储由一系列网络节点组成,每个节点之间的通信就是输出与输入,各节点之间的调度治理就是控制器。
分布式架构技术组成
这么看来,分布式系统就像一个网络计算机,它的常识体系包含四个角度:
- 存储器,即分布式存储系统,如 NoSQL 数据库存储;
- 运算器,即分布式计算,如分布式并行计算;
- 输入输出,即分布式系统通信,如同步 RPC 调用和异步音讯队列;
- 控制器,即调度治理,如流量调度、任务调度与资源调度。
你能够从这四个角度来概括分布式系统的常识体系。
那么具体的解题思路是什么呢?以“Redis 是否能够作为分布式锁”为例,咱们一起来剖析一下问题背地暗藏的分布式理论知识,以及作为高级研发工程师的解题思路。
解题思路
- 阐明现实存在的问题
个别应用 setnx 办法,通过 Redis 实现锁和超时工夫来管制锁的生效工夫。然而在极其的状况下,当 Reids 主节点挂掉,但锁还没有同步到从节点时,依据哨兵机制,从就变成了主,持续提供服务。这时,另外的线程能够再来申请锁,此时就会呈现两个线程拿到了锁的状况。 - 回归实践的领导
依据对 CAP 实践的了解,Redis 的设计模型是 AP 模型,而分布式锁是一个 CP 场景,那么很显著,将 Redis 这种 AP 模型的架构利用于 CP 的场景,在底层的技术选型上就是谬误的。 - 扩大到常识体系
Redis 属于分布式存储系统,你的头脑里就要有对分布式存储系统畛域的常识体系。思考它的数据存储、数据分布、数据复制,以及数据一致性都是怎么做的,用了哪些技术来实现,为什么要做这样的技术或算法选型。你要学会从多维度、多角度去比照、剖析同一分布式问题的不同办法,而后综合衡量各种办法的优缺点,最终造成本人的技术认知和技术判断力。 - 有技术的判断力
比方通过 Redis,你能想到目前分布式缓存零碎的倒退现状以及技术实现,如果让你造一个“Redis”进去,你会思考哪些问题等。尽管在理论工作中不举荐反复“造轮子”,但在面试中要体现出本人具备“造轮子”的能力。
总结
CAP 实践看似简略,但在面试中,对它的了解深度能够从侧面反映出你对分布式系统的整体理解能力和驾驭能力。
所以你岂但要把握如何在面试中答复案例中 CAP 原理的问题,而且还要把握答复问题的思路,当前遇到相似的理论性常识的考查,都能够从三个层面答复。
- 展现实践深度。
你能够从一个熟知的知识点登程,深入浅出地答复,比方它的工作原理、优劣势、实用场景等。 - 联合落地教训。
你不能仅停留在实践了解,还要联合落地计划的技术实现,这样能力体现你的技术闭环思维。 - 展现常识体系。
这是任何一个程序员向上倒退的根底能力。实践深度和落地教训体现了作为程序员的基本素质,而常识体系和技术判断力则体现了你是否达到架构师的能力边界。
文章结尾,送给你一句话:“技术人,要有落于地的能力,还要有浮入地的本事”。
文章起源:JAVA 日知录