共计 2609 个字符,预计需要花费 7 分钟才能阅读完成。
一、背景
受继续一直的疫情、toC 市场用户到顶、股市稳定等因素影响,各厂基础架构部从疫情前的疾速扩张模式,转向维持或者膨胀模式。但服务还在运行,工作还要持续,零碎的治理复杂度还在一直减少,微博热搜榜上一直呈现 A 服务宕机、B 服务挂了、C 服务崩了这种新闻,其中更是不乏各头部大厂,近期的西安一码通故障更是引发了轩然大波。裁员、减服务器、控老本,如何在盘根错节的环境下掌控局势成为各厂基础架构部负责人的微小挑战。
作为次要服务于各厂基础架构部的云原生根底引擎厂商,星汉将来心愿站在各厂基础架构部背地,通过推动新一代云原生架构改革,充沛协同私有云厂商、开源社区、软件厂商等力量,借助微小的技术创新红利来实现以无限的人力撑持一直增长的服务需要。尽管星汉将来是个初创公司,但公司的开创团队领有数个亿级 DAU 架构技术体系建设、技术改革等教训,近 20 位研发骨干来自美团、抖音、快手、腾讯、滴滴、微博等头部大厂,研发团队在不到 3 个月的工夫构建了三大云原生根底引擎,将会是各厂基础架构部的无力外援。
二、挑战
凡是改革,皆属不易。难以抉择的路线、旧调重弹的习惯、潜在的危险、微小的机会成本、多样的部门利益等等都是新一代云原生架构改革之路的拦路虎。但同样,从 20 分钟 1000 台弹性到 1 分钟 1000 台弹性只用了四年工夫,从千兆网卡到 25G 网卡甚至百 G 网卡也就是几年工夫,K8s 从小众到遍及也就五六年工夫,新的技术、新的硬件、新的理念也在蓬勃发展,已有不堪一击之势。以后机会与挑战并存,但总体上讲改革的力量曾经压倒激进的力量,最近理解到不少厂曾经在各自推动在离线混部、主动扩缩容、K8s 容器平台等改革。
既然各厂曾经在各自推动云原生架构革新,新一代云原生架构改革是否会像前几年的高可用架构改革一样疾速失去遍及?目前看云原生架构改革停顿很不尽如人意:在离线混部概念喊了很多年了,真正大规模落地的也就头部几个大厂;Service Mesh 更是声势浩大,但全面落地的更是没几家;K8s 容器平台治理的计算资源超过 80% 的应该也是比比皆是。目前广泛的状况是,大家都在做,也都会有些试点,但普遍推广的难度和挑战很大。那么问题在哪里那?为什么几年前同样一拨人高可用架构落地要快很多?以笔者经验为例,2012 年做某个我的项目的高可用革新时投入只有几个人,2016 年做某个云原生我的项目时投入则高达 30 人,还历经挫折。当初总结来看,次要的挑战点在于高可用革新只是对某一个零碎或业务,大厂个别会有几十甚至上百个相似零碎或业务,单个的革新难度的确不大。而要发展云原生架构革新,就须要同时面对几十个零碎或者业务,须要将几十个零碎或者业务都迁徙到新架构,这个挑战可想而知了。云原生架构革新的背地不仅是技术问题,更是组织问题、共识问题、优先级问题、机会问题。
三、应答
需要很迫切,挑战又十分微小,那有没有方法来减速这个过程,让更多的厂更快的享受新技术的红利?答案是必定的,星汉将来公司也是为这个使命而生的。
首先,因为零碎的复杂度数量级晋升,单个厂单个部门单打独斗的模式曾经不再适宜。动不动 30 人、50 人的研发投入,曾经超过了小团队的能力范畴。充沛借助云厂商、开源社区、软件厂商等提供的成熟产品与解决方案成为必选项,各厂聚焦在各自的技术策略关键点进行建设就好,全面建设一则搞不定二则老本十分高。如果想复用但复用不了怎么办?这就要归功于过来几年私有云集中化、公有云标准化、容器与 K8s 遍及等基础设施方面的提高,跟车同轨书同文、铁路与高速公路零碎建设促成全国市场倒退一样,逐渐对立的基础设施是各种软件与服务能够复用的必要前提。
其次,通过过来几年的演进与打磨,10 亿级 DAU 零碎的架构教训也曾经成熟,高可用、缓存、存储、音讯队列等最佳实际曾经足够成熟,故障的起因有哪些、流量模型有哪些对各大厂也不是问题。这就代表已有的问题和场景曾经笼罩了 99% 以上的状况,即便有新的类型的问题概率也很低。这样也代表一套或几套零碎就能笼罩绝大多数的问题和场景,满足绝大多数的需要,综合各大厂最佳实际的零碎将有很大的概率对立市场。
再次,如何推动组织变革以适应新一代的云原生架构也有了不少最佳实际,能够疾速学习借鉴。比方一开始就联结研发、运维、老本、QA、平安等相干部门代表成立联结项目组就是很好的实际,基础架构改革不仅须要基础架构部主导和投入,其余部门也都要有很大的投入,至多反对这件事件就没方法做其余的事件了。所以,改革的要害是明确利益调配的规定,整体的、模块的、阶段的收益如何调配都要提前讲清楚,权责利统一了我的项目也就能疾速推动了。再比方优先在一两个较外围的业务进行试点也是不错的实际。大家个别推新技术喜爱采纳从边缘到外围的策略,这样很持重但速度会十分慢。能够先选个很小的业务做原型和最后的试点,而后就应该扩大到外围的业务,很多有挑战的场景也就外围业务有,做再多的边缘业务能力也不会减少很多。外围业务革新的挑战和危险尽管大,但搞定了在全公司推都很简略了,而且也是绕不过来的,晚搞定不如早搞定。
四、结语
挑战仍然艰巨,阻力仍然微小,但改革的号角曾经吹响,也有不少改革的先锋曾经开始口头。以业务需要和场景为核心,以先进的云原生技术为伎俩,宽泛借鉴头部大厂的各种最佳实际,各厂基础架构部与云厂商、开源社区亲密分工协作,新一代云原生架构的改革定会疾速推动,给各厂带来微小的回报。欢送想推动改革的同仁与咱们分割(微信 @liudaoru 请备注公司及部门),一起推动改革!
对于星汉将来:
星汉将来(Galaxy-Future)是一家云原生根底引擎提供商,提供三大算力引擎:算力调度引擎 BridgX、数据物流引擎 DTExpress、智能运维引擎 CudgX,基于三大引擎也提供了标准化智能运维产品 SchedulX 和运维可观测产品 ComandX,同时,也为企业提供解决方案和咨询服务,心愿能帮忙企业在上云过程中实现:云应用老本升高 50%-80%,同时,开发效率能晋升 10 倍。
相干产品 GitHub 地址:
算力调度引擎 BridgX:
GitHub 地址:
https://github.com/galaxy-fut…
智能运维引擎 CudgX:
GitHub 地址:
https://github.com/galaxy-fut…
标准化智能运维产品 SchedulX:
GitHub 地址:
https://github.com/galaxy-fut…