关于大数据:交付铁三角的故事之兵戎相见

47次阅读

共计 5203 个字符,预计需要花费 14 分钟才能阅读完成。

简介:大家好,交付铁三角带着全新的故事来啦!始终被利用交付难题所困扰的他们这次又遇到了新的难题,售前大佬的一句客户资源布局缘何让开发铁子暴怒,交付小锤的劝架为何以致本人的交付团队陷入这场漩涡之中,在客户现场惨遭客户对交付品质的质疑。在这场风波背地,又暗藏着怎么的破解之法,帮忙他们重归于好?快来点击下方文章理解吧!

作者:新钰

大家好,我是专一交付的王小锤,与开发老哥铁子还有售前大佬强哥组成的“交付铁三角”团队,咱们又来啦!

咱们“交付铁三角”服务于一家提供大数据分析服务的 ISV 企业。通过对客户提供的大数据,进行多维度智能化剖析,提供用户画像、潜客剖析、销量预测等信息,将数据价值最大化后给到客户,助力客户通过剖析论断达到最大的市场收益。近年来,出于对数据安全性以及平安合规等方面的思考,抉择私有化交付的客户越来越多,而他们的要求也变得复杂多变,无形中咱们被迫面临各类简单的交付环境,同时产品交付压力一劳永逸。

这不,始终被软件应用私有化交付问题困扰的咱们,近期又碰到了新的交付难题,为此还闹的不欢而散。

兵马未动之粮草筹备多少?

起因

故事是从那天强哥的埋怨开始继续发酵的,那天强哥一脸的丧气回到公司,拉着铁子就问能不能给他一份清单,让他带给客户。好让客户晓得要是用咱们的 SaaS 产品,须要买多少设施,筹备多大的硬盘?咱们的产品会占用多少内存空间?他埋怨道:“因为客户须要解决的数据量很大,所以最近对资源的应用状况变得分外敏感。客户心愿将每一寸资源都用在刀刃上,像是客户本身有 MySQL、Redis,或者曾经在应用一些云上资源,那么就心愿能将这些资源做到正当的利用与布局,或者客户本身有几台服务器,那么他们最不心愿,有些服务器配置的很满,有些却只应用了一小部分资源的状况产生。”

明天他去到客户现场,客户间接问他要筹备多少资源刚好够用,能不能给个清单。过后强哥一下子被问住了,忙说下次去的时候筹备好给到客户,让客户也好有个心理预期。

这时铁子一听就不乐意,没好气的对强哥说:“你怎么能乱许可客户呢?和你说过很屡次了,咱们怎么可能筹备的进去这样的清单,这种很难预估的,我只能说去试试!就算筹备进去了,也不会有多准的!”强哥一听也来了脾气:“客户要了好几次了,我不给的话,这单还要不要谈了?”

降级

听到这里我忙劝架,让铁子别冲动,这个事件试试,先拿一个进去,而后强哥叮咛客户先依照这个预估的资源状况的根底上往大些筹备就好了嘛。没想到,就是这句话,将咱们交付团队带到了一个个坑之中。

而为了感动客户,让客户感觉不须要花太多钱就能够部署好这个数据产品,铁子给到强哥的资源布局清单绝对激进些。直到那天,咱们遇到一个客户,真的依照强哥带去的清单做的筹备,竟没有多一丝资源冗余给到咱们。当咱们去部署的时候,发现基本不够部署咱们的产品包。因为资源有余导致无奈残缺运行,最终被迫在现场裁剪产品资源开销后重新部署,这个过程耗费了大量的工夫。

于是在客户现场,就看到咱们在重复部署,将环境部署到一半,铲掉,再去部署。过后客户就和咱们在一起,看到屏幕上重复呈现的 delete,不住的点头。那时的咱们感觉太挫败了,起初客户看不下去了,婉言:“你们这个交付包是不是品质有问题啊?这么反反复复的到底还能不能跑起来?”咱们连忙安抚客户,说释怀,不是交付包有问题,是咱们的环境有点简单须要略微费点工夫调试。而咱们心里晓得这些话是说给客户听的,就是客户那边资源没筹备足,咱们须要对当初的产品现场调试批改,而咱们却不能怪到客户头上。

激化

而不巧的是,咱们才交付好后回来没两天,客户一个电话过去,和咱们埋怨说这才用了多久,就宕机了。咱们登程前,就在猜是不是又是因为资源的问题,他们须要解决的数据量还是很大的,当初部署完留给业务运行解决的空间本就不是很多了。果然,当咱们飞过去排查后发现,的确资源有余须要扩容,然而扩容的话,须要将客户目前的业务中断。终于,这个行动导致客户的喜气值爆棚,婉言咱们的交付品质太差。

暴发

当然咱们也很冤屈,回去后一名交付同学在复盘会,间接将这些话透传给到开发团队,进一步导致了矛盾激化。

铁子立马出击说:“话不能这么说,原本就说了这个清单只是参考,咱们哪儿想到客户那么实诚,原原本本依照这个来筹备,一点冗余空间都没筹备。而且咱们人为一点点去进行的核算,曾经都占用咱们很多研发工夫了,你们还不领情。你们可晓得,运行时资源状况会动静扭转的,这让咱们怎么来评估,很难得好不好!你们倒是不写代码,谅解谅解咱们开发同学好不好,不要上来就甩锅。”

强哥听到咱们屋内吵起来,走了进来,我原以为他是来劝架的,没想到他进来后又进行了补刀。他说方才接到另一个客户电话,说依照他的清单筹备的资源,后果有些机器资源都没怎么用上,空置在那里了,间接节约他们的钱,体验很差,感觉咱们很不靠谱。

铁子听完咱们的个体吐槽,留下一句,说了不好布局你们不听,我有什么方法后推门而出,再也不理咱们了。

这曾经是咱们交付铁三角不晓得第几次争吵了,每次都是因为交付时呈现的这些问题而吵架,最终闹的不欢而散。

大战前夕不来场策略演练?

只管吵归吵,咱们的我的项目还是须要铁子出包,这天咱们还是依照平时那样,拿着交付包去到客户现场。达到客户现场后,咱们懵了,交付地点在大山深处的厂房不说,客户筹备的机器还非常老旧。咱们去装置的时候,始终在心里犯嘀咕。好在,只管客户的网络状况比较复杂,机器老旧,咱们的部署困难重重,但咱们还是顺利完成了部署。就在咱们筹备来到的时候,厂房忽然停电了。客户解释道:“咱们这边比拟偏僻,有时候会动不动跳下闸,没事,一会儿就复电了。”

当电力复原时,如你所猜想的那样,咱们的产品跑不起来了,须要重新启动几个组件。过后交付同学就说回去复盘的时候要提一下,你看,就停了下电,断电重启都实现不了。

复盘会上,铁子这样解释道:“每次出包前,咱们曾经进行了重复的验证,尽管这部分工作耗时耗力,但相对来说咱们曾经尽力了。只管这样咱们其实还是无奈保障交付包肯定可能容忍很多特定场景的,这个实现起来是很艰难的。

另外,线下交付场景中问题的解决大多与环境、配置无关,当由不同的交付人员解决时,每个人解决的环境、产品故障偏差点状解决。而当遇到新的问题时,须要从新开始排查,摸石头过河效率较低,那便是你们交付同学的问题了。因为你们并没有相干常识的积淀,并未提供给到咱们这些信息,为下次演练提供素材和参考,这样咱们只能凭咱们的教训对一些场景进行演练,有脱漏的场景太失常了,这才是问题的关键所在。

另外,故障排查数据量大,一个组件出问题排查起来的确很艰难,这个也是不争的事实。然而交付前咱们的确进行了充沛的模仿演练,曾经最大限度的来升高问题出错的概率了。”

听完铁子各打两大板的发言,这次抵触尽管没有激化。然而咱们对于铁子给出的说法并不称心,会议完结后交付的其他同学拿起电脑头也不回的走了。而我坐在会议室,看着铁子在不住的点头叹气。那一刻,我竟感触到了技术同学一瞬间的失望和惆怅。他在强忍着,只见铁子一手捂紧拳头一手不停的挠头,好似下了很大的信心。

兵马未动之粮草先行

工夫人不知; 鬼不觉的过来,直到有一天,铁子找到我和强哥,喊咱们一起吃个饭。吃饭的时候,咱们才晓得,预先铁子那个气啊,于是为了争口气,赌上公司研发一把手的尊严。拉着开发团队通宵剖析,发现外围矛盾点如下图所示,最终导致客户质疑咱们的交付品质。而这所有都源于资源评估这一步,如果把这个技术难点冲破了,咱们的矛盾便能够解决。一边怄气一边钻研的过程中,他想到了云原生利用交付平台 ADP(以下简称 ADP),上次访问阿莫理解应答软件应用交付难题的招式的时候,他如同提到过一下,于是他进入 ADP 平台,看到外面真的有资源布局能力,通过剖析钻研,发现能够很好的解决以后这个矛盾。

资源布局能力

ADP 的资源布局性能可帮忙咱们,通过模仿部署能力疾速且高效的评估出适合的集群资源配置,如:CPU、内存、存储别离须要多少,还能够在部署失败后查看未胜利调度的 pod 数以及起因,进行调整,无效升高由人力评估效率低下、动静场景难以统计精确等起因所导致的一系列问题。

三步实现疾速资源布局

1、主动统计产品的理论部署开销。

2、对拟定的节点资源规格进行仿真调度试验,得出理论的部署成果。

3、查看调度失败的 Pod 状况,调整节点资源规格,秒级重试验证。

铁子说完这些后,看向强哥道:“你看,当前咱们产品适配革新好后,跑一份更靠谱些的资源容量清单给你,你拿给客户,就让客户依照这个筹备,还是有问题的话,你来找我,轻易你怎么凶我我都认,好不好?”

强哥听完边拍板边说道:“行,这可是你说的!一会儿你把今天我要去聊的客户,他的资源布局清单给到我,我今天带过来。”

“好的”,铁子边许可边扭头看向我,对我说道:“小锤,强哥前置把客户那边搞定,客户依照清单中的资源状况进行筹备。那当前你们交付团队再也不会呈现,在客户现场重复部署装置,部署了,铲掉,再部署,再铲掉,这样难堪的状况了!在信老哥一次好不好?”我拍拍他的肩膀道:“好的老哥,再信你一回!”

不打无筹备之仗

对于交付同学提狐疑铁子他们出包前验证不短缺的事件。虽说铁子他们心里不服气,然而想了想,自身交付的场景就是各种各样的,的确很难做到八面玲珑,狐疑开发同学演练不充沛也的确是有情理的。于是开发团队的小伙伴集中起来,梳理了许多的演练场景,而后铁子又将这些场景在 ADP 平台中一一查看,发现 ADP 平台能够主动实现这些场景的线上集成一键演练,而且涵盖的演练场景比他们想到的还要多。

故障演练能力

ADP 提供的故障演练能力能够实现,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳固牢靠。

基于线下交付教训设计的故障演练场景,对基础设施、底座、中间件的常见故障场景进行笼罩,无论集群级别的大规模故障还是节点、Pod 级别的资源故障,都能够在线上实现演练,可基于产品在常见故障场景下的问题进行针对性优化。

ADP 故障演练与 AHAS 故障演练产品进行深度集成,演练场景丰盛,且可一键创立线上产品环境并实现 AHAS 探针接入。基于 AHAS 故障演练产品提供的流程编排能力,可实现常见故障场景的一键筹备、注入和复原。使产品在常见故障场景下能够预设其可靠性、可恢复性、告警及时性,大大增加交付信念。

可演练场景如下:


说完这些,铁子略带得意的看下咱们两个,问道:“怎么样,听完有没有感觉交付包牢靠了许多,信念满满?咱们开发团队当初曾经在依照这些流程来进行交付了。小锤,下一次交付完记得回来和我反馈,要是交付品质有感觉晋升了,体验棒棒的,别忘了请我吃饭哈!”

“好的,没问题!”听完铁子的一番解释和介绍,咱们都感觉这次靠谱了很多,对下一次的交付充斥了期待,于是我痛快的许可了他。

铁子还说他请咱们吃饭前还分割了下 ADP 的阿莫,和他聊起来这两个能力,他说当初做的还比拟高级,后续在资源布局和故障演练能力上还会加大投入。

在资源布局方面,当初提供的是你们部署时所需的布局清单,然而后续咱们为了更加精准,还将引入线上的压力测试,这样你们的产品在运行一段时间后是否还能扛得住就清晰明了了,你说的小锤他们部署好立马又回去扩容的状况能够更无效的防止了。

演练场景这部分,咱们后续打算在交付团队交付部署好之后,能够让小锤他们在现场再跑一遍故障演练场景,为交付验收再加一层保障,做到出包前交付后都进行充沛验证。这样你们用着也会更释怀些,还能够将精力回归业务倒退上。

就这样,一场兄弟反目标风波就此告一段落。

总结

交付品质晋升大法

资源评估—— 带着正当且牢靠的资源布局清单给到客户,缩小资源节约、防止资源布局带来的业务中断危险、杜绝重复交付部署状况的产生。

故障演练—— 出包前一键演练或者自动化故障演练,做到每个包都千锤百炼,每个可能的故障坑,交付人员心里有数,出问题疾速排除与解决。

提到 ADP,上次访问阿莫已具体介绍 ADP 作为一款利用交付的利器,提供以下能力:

全栈式在线化服务:稳固牢靠的中间件适配、极致简化的交付流程。

异构环境全笼罩:通过集群镜像实现异构 IaaS 交付、通过利用管控实现异构 Kubernetes 交付、以及面向凋谢生态的布局。

稳固可运维底座:ACK Distro 底座、运维管控平台能力。

上述能力可有效应对咱们的产品适配老本高、部署环境简单、运维低效且门槛高的烦心事,如果感兴趣可在文末点击链接,理解上次访问细节。

而这次居然是 ADP 提供的能力让咱们重归于好,看来是时候再约阿莫他们多聊聊,看看还有什么惊喜,加上上次他埋了几个小问题让咱们甚是好奇。待咱们再次访问阿莫起初同大家分享,一起看看还有哪儿些你不晓得的事件吧!

https://developer.aliyun.com/…

(本文纯属虚构,如有雷同纯属巧合)

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0