乐趣区

TOP100summit分享实录 | 如何构建一套全链路的故障追踪和故障自愈系统?

本文内容节选自由 msup 主办的第七届 TOP100summit,三七互娱运维开发负责人童传江分享的《三七互娱故障追踪和故障自愈系统》实录。
分享者童传江在维行业 7 年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。
编者按:2018 年 11 月 30 日 -12 月 3 日,第七届全球软件案例研究峰会在北京国家会议中心盛大开幕,现场解读「壹佰案例榜单」。本文为三七互娱运维开发负责人童传江老师分享的《三七互娱故障追踪和故障自愈系统》案例实录。
在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障自愈系统,成了质量保证部门的刚需,通过行业标准化的 PaaS 平台模式和 Trace 追踪技术,从而实现整个架构的质量可控。
今天,我将从两个方面分享故障追踪的实例,第一方面,关于运维平台的整体架构,分别从成本、效率和质量三个维度解决的大致方向;第二方面,关于在链路追踪具体的案例实践。
运维平台的整体架构
现阶段,关于运维平台有三个大方向的问题需要解决:
第一个是成本,有些公司认为这个问题不是非常严重,但公司发展到一定规模,运维成本对于运维部门来说是一个非常大的挑战。像服务器、CDN、宽带的成本可以占到营收的百分之几以上,是一个很大的支出。运维成本核心要解决的是搞清楚具体钱花在哪个方向,并对这些成本问题进行优化。
第二个是效率,这是运维面临的主要问题。对于基础设施的交付、中间件的交付,或是代码发布,分解业务需求交付从上到下每一个步骤,并让每个一个步骤变得更快,这是我们要解决的第二个问题。
第三个是质量,这个问题很简单,业务是否正常、用户体验是否良好等,如果说有问题,到底哪里出现问题,这是运维部门要保障的。
那么,如何解决以上三个问题呢?
从技术方面来看,主要划分三个模块,第一个模块,对基础设施的交付;第二个模块,运维开发能力层面;第三个模块,前端接入层面。
从基础设施能力方面来看,因为运维的场景不同,现有情况在基础设施层面交付非常繁杂,有些应用需要裸机,我们就要直接进行裸机自动化系统完整交付;有些业务需要自动扩容,我们就要提供 IAAS 的平台;在基础设施方面,操作系统交付能力上有一个“封装”。将裸机,虚拟化 IAAS,容器化 IAAS,公有云统一向上封装。核心为提供操作系统能力。

从运维层面来看,第一块是 CMDB,它包括了资产到应用,以及整个关联关系,所有需要关联到成本或质量的相关数据都存在 CDMB 中。第二块是任务通道,对所有下层交付的系统实现各种各样的自动化,通过任务通道来执行的,分化细节来看,提供了脚本执行、文件传输、配置分发、任务编排、定时调度、以及一套 API。第三块是数据通道,以前的监控数据,日志数据、APM 数据或者像交换机 Netflow 等各种各样的数据都在数据通道中。数据通道的核心是做收集数据、传输数据、计算数据、存储收集、展示数据,数据通道核心在用一套逻辑,提供同一个数据处理能力。第四块是第三方 API,如上图所示,涉及到各种公有云,微信,DNS 等平台。接入能力层面,主要是提供前端的 WEB 端,包括移动端 app 上的封装,关于 API Gateway,我们现有的实现 API 网关主要做 Web 防火墙这样的应用规则。
现在,我们来详细看一下 CMDB 数据的具体模型。如下图所示:

CDMB 主要分为两大块,第一块是资源,第二块是应用。资源是通用的,而应用这一块是应用分类、应用单体,这里要注意的是,所有的应用 CMDB 层面,我们是将它拆分到具体的 PaaS 平台,所有的应用和单体应用跑到中间件上面,而数据是记录在 CDMB 中的。如果说一个应用如果需要依赖集群,则需要 Master、VIP 各种各样的属性。实际上关联到基础设施的操作系统的进程上去了,所有运维的数据都是放入 CMDB 这张表里面,我如果需要解决成本问题,是可以依据一条链路的,先从业务出发,找到我的资产花费了多少,因为核心的成本在资产上,关于成本问题,我们可以通过 CMDB 将这个数据找出来。
关于效率问题,其实核心是在交付基础设施、交付中间件、交付代码做持续集成。通过基础设施的交付效率提升,中间件交付效率的提升,代码交付效率的提升,来实现到整体效率提升,所有的数据依旧是放在 CMDB 这张表里面。
关于质量问题,我们的业务依然是运行在中间件上,中间件运行在真实的资源上,在运维层面的上一层或中间一层保证业务的质量。
综上所述,我们大致介绍了一个平台最开始的整体架构,包括 CMDB 的详细解释。接下来,再介绍一下,在这个模型上如何对成本、效率、质量问题如何具体解决?
关于运维成本,CMDB 简化了逻辑关系,固定资产存在账单,我们的业务存在收入,并不是说一个业务它的运维成本高,就一定有问题。实际上,我们是按一个收入占比的,运维成本高,收入也随着增加。基于以上,我们可以非常清晰的得到一个财务数据,这个财务数据的核心是某一个应用收入了多少钱,它的收入占比是多少。当然,因为有详细的关联数据,依然可以知道各种各样的钱花在了什么地方。
关于提升运维效率的大体方向如何解决?

我们对整个业务做了抽象,第一块作为基础设施,第二块是中间件这一层,第三块是持续交付,真实的业务在最上面。IAAS 如何提升需求?我们在对于 IAAS 实现交互就像实现云平台一样,操作系统安装不管做自动系统安装还是云 API,其他的 IAAS 提供一套统一的 API/ 用户界面自己申请 / 自己获取基础设施的资源。
关于效率 PaaS 平台,在中间件这层,我们会使用 MySQL。在产品集群把 MySQL 做成云化模型的管理模式,主要是在改变思路,以前的业务需要一个 MySQL,DBA 会给它一个 MySQL。但实际在进行云化模式管理的时候,我们会将普通的 MySQL 实现成一个云化的产品,在业务需要时,它将自己进行申请。所有的自动化能够将一个 MySQL 集群实现成云化模式的话,核心需要的技术能力主要还是运维能力、开发能力、交付能力、平台能力。CMDB、数据通道和第三方 API,我们只能使用基础的运维能力层,能够实现到类似于把普通的 MySQL 实现云化,比如,腾讯云、阿里云一样的 MySQL 集群,看一下详细界面,云化监控或是需要人工接入的都把它云化成云平台模式,提供给业务方块,自助操作。
在运维效率方面的提升,从 IAAS、PaaS 层面我们核心要做的是,虽然现在没有能力从技术能力、各个组件开发成一个云化产品,但实际上,我们在运维能力上能做到在产品层面类似于云的产品,提升运维的效率。
现在,我们详细介绍一下关于运维质量的方面。
关注质量解决的方式主要分为四大方面,如上图所示,我们对于应用依赖的模块做了抽象化,因此,下面两块是通用的;第一块,保证的是我们在 IAAS 层面或是操作系统层面的质量;第二块,我们所有业务都是跑在中间件上,虽然中间件是用了通用的开源软件,抽象化后依然是云平台;第三块,是关于链路追踪,这在下面会详细解释;第四块,是常规的业务本身的监控,比如,游戏行业有可能会游戏登录、注册、充值。对于 IAAS、PaaS 层面,主要核心是接入 CMDB 数据,让 Open-Falcon 数据和业务关联,实现最开始的监控。
链路跟踪技术的实践
链路跟踪是什么样的技术?我们在质量保证层面分为四块,IAAS、PaaS 到业务本身再到链路跟踪,这项技术是基于中间层面的。
在微服务时代,任何一个应用完成时都要通过其他接口共同实现。如上图所示,如果这里是一个登录业务 A,用户来登录这个业务时,先调用第三方 API、D 和 E、存储、各自的中间件。用户 A 在登录的流程中,每一个细节都可以进行链路回放,能够清楚的知道,一个用户 A 完整的登录过程,以及具体细节。因为链路跟踪技术完成的整个细节,业界关于链路跟踪技术有非常多的实践,但我们在自己实现时,还有很多的困难。
想要完整的实现一个链路跟踪的基础,有哪些问题需要解决呢?
第一个,性能。我们现在是一个用于解决用户质量的辅助功能,在引入这个功能时,最好不要影响到业务,特别是有些业务对消耗性能非常敏感,引入链路跟踪后,为了保证用户质量而影响业务的性能,会不能被接受。第二个,应用无感知。我们现在引入一个新技术,对于质量保证,需要开发来配合。应用不需要知道跟踪系统的存在,也不需要开发二次配合接入。第三个,扩展性。业务随着规模增长,整套链路跟踪系统依然要能够满足对于系统需求的完成。
现在,我们来详细分析基于 PHP 链路跟踪自实现原地。在 Java 或是其他语言中,语言本身 / 社区本身对于链路跟踪技术是比较成熟的,我们可以直接拿来用,但是对于 PHP 技术,已实现的大部分都是侵入式的,侵入式需要开发配合做代码修改。
在只有维护没有开发的情况下,会出现一些老旧的业务,这会导致无法接入,特别是侵入式,开发团队比较忙或是不愿意接入你的链路跟踪,那么,整个跟踪的实际效果会大打折扣。

上图左边是一个常规的 PHP 代码,这是 Curl 函数的实现,右边是真实的 Curl 扩展的源代码,这个扩展最终是一个 C 函数,我们想要实现的链路跟踪是访问函数的时候,能够知道代码的顺序、函数的输入 / 输出以及像调用时间。
基于以上 PHP 函数的实现以及扩展性基于 C 语言的实现,我们可以实现到什么?
我们依然调用了 PHP 的 Curl 的函数,这个函数本身对它进行替换,依然访问 C 函数,但函数本身对它做了一个替换,请求该函数的时候,是指请求我自己的函数,自己的函数本身会调用原始函数,对原始函数进行返回,经过简单的封装后,我们能拿到 Curl 任何一个函数的参数;关于函数的返回值,我们要知道,访问一串代码函数,在一串链路中,可以获取到参数和返回值,在中间插入最终 ID。因为参数有请求时间、返回时间,所以基于这样一个更改实现,就可以知道扩展函数调用参数、调用返回值、调动时间,我们可以对这个参数返回时间进行更改,并植入另一个 ID。对于这些函数做的更改,在 PHP 代码中再调用函数时,就可以像一条链路一样从上到下,把整个链路接入。
关于单台 Server,如果跨机器识别,传输链路 ID 如何传输?

如上图所示,基于 PHP 实现大部分都是 Web 开发的,在 HTTP 中追踪一个 ID,可以实现多台机器之间。假设同样是一个 Login 请求,一个请求的传递,基于以上的实现,我们就可以实现到类似于第一块,最开始 Curl 是一个扩展,我们开启了新扩展,任何一个 PHP 语言只需要打开一个新的扩展包,并植入到 PHP 中就可以实现链路跟踪了。
实现本身是接入到一个开源软件,我们实现的过程中做了一些更改,更多的是函数支持,那这是什么意思?最开始讲到实现原理的核心是做一个函数替换。我们会在测试过程中发现,如果没有函数,我们可以增加更多自己的函数,类似于 Curl Post 参数抓取,增加了这个功能。我们基于链路跟踪获取到数据码,再进行 V2 格式进行输出,最后修复 bug。
接下来我们看一下真实的基于链路跟踪输出的详细数据。

上图所示,左边是一个常规的 PHP 代码,右边是链路输出的数据,我们详细分析一下 PHP 代码,这一串链路追踪最终核心截取了一个函数细节,函数的耗时时间、函数的参数,我们基于最开始的函数替换原理实现到的是,任何一个 PHP 函数,它在运行时可以将输入参数、返回值和调用时间,获取到这一串代码整个执行的链路。
当然,因为做了数据替换,所以会出现性能损耗,我们需要通过采样率规避这个问题,根据实际业务做到一个测试数据。关于以上内容都是作为单机处理的,那么,如何实现扩展到几百台或几千台规模机器?

首先,对 PHP 做一个扩展,再做函数替换,实现基于 Zipkin-V2 数据写入到文件,数据平台有一个数据日志,将日志写到平台中。用到 Vipkin-V2 协议将隔离转化格式后,再做数据转换,如果只是用来查询,它是非常简单的 Web 页面,HTML 的页面进行重写插入到平台里面。在实现过程中,有几个细节需要注意,第一块 Logstash 配置,需要做一个重命名操作,第二块 ElasticSearch 搜索,一般不进行索引,我们可以进行字符串查询,查询到指定的 API 或指定的数据类型链路跟踪。
当加了链路跟踪后,最终解决什么业务问题?
第一块是性能统计,我们通过函数替换可以知道输入、输出的时间,和 MySQL、API 接口访问时间。虽然数据可以在第三方系统查到,但也可以在 MySQL 集群或是自己的系统、API 性能分析中查到,如果能查到链路跟踪,这是非常贴合业务的。

第二块是应用拓扑,如上图所示,我们可以非常清晰的看到,在通过链路跟踪的时候,我们可以知道语言目的地,并把拓扑画出来,如果仅仅只是基于链路跟踪画拓扑图,是不适合现实情况的。
一个 8001Web 端口,MySQL 有 50 提机器,仅仅基于链路跟踪画出来的数据图,50 个 Web 介点连接 MySQL,在运维层面属于集群的概念,但只是链路跟踪的话,画出来的拓扑图可能不适合运维层面。MySQL 比较简单,基于链路跟踪的数据看到的 ID 只是 VIP,架构图对于运维制造,是想了解真实访问到哪个集群了,基于这样的实现,我们之前详细介绍到 CMDB,VIP 数据和 MySQL 是有关联的。关于这两个数据的结合,可以非常轻松的知道运维的构架图。

上图是一个简化过的两地三中心的架构,这不是单机 Web,只是一个 Web 集群。MySQL 依然是最开始业务所支持的中间件 MySQL 集群,基于链路架构图画出来,包括应用跟踪可以实现到的错误故障或耗时,可以实际的展示到图表上,这种应用拓扑其实是真实的反映了现有业务运维架构。

第三块是链路回放,上图是 Login 页面,一个用户登录需要完成什么?所有的程序调用会像链路一样展现出来,例如,调用第三方 API、传入、传出、消耗时间、连接中间件、插入的数据、反馈的数据等。主要核心是做故障定位,例如,基于应用层面,某一个业务登录发生非常严重的下降,我们在链路跟踪中打开登录页面,就能详细的知道,API 无法提供服务,导致业务故障。整体上关于链路,整个质量保证处于中间那一块,核心是从上到下访问链路,来解决质量的相关问题。
以上内容来自童传江老师的分享。
声明:本文是由壹佰案例原创,转载请联系 meixu.feng@msup.com.cn

退出移动版