关于测试:揭秘百度智能测试在测试分析领域实践

作者 | intelligents

上一篇，介绍了测试流动测试输出、测试执行、测试剖析、测试定位和测试评估五个步骤中测试执行智能化钻研和实际，本章节重点介绍测试剖析环节的智能化实际。

测试剖析是指测试流动通过设计测试用例、用例执行实现后，通过观察被测系统的体现，来判断被测系统是否存在问题。测试输出和测试剖析两个过程独特决定了测试流动的问题召回能力，用平时常见的流动示意单测中的校验点即为测试剖析，无校验点的单测是有效的。测试剖析从实践层面能够分为VE（正确性校验）和VA（基于体现的校验）。在智能畛域VE的钻研畛域更多的是如何正确的生成校验点、评估校验点的正确性和合理性；VA因为波及到通过数据统计分析系统分析法则发现问题，钻研的畛域比拟宽泛。

测试剖析智能化通过将数据、算法、工程等相干技术有机联合，以尽可能召回测试输出笼罩到的场景或问题，个别蕴含间接的校验点主动生成、基于数据挖掘零碎的潜在问题、基于视觉的UI召回等方面，在学术界和工业界均有十分优良的钻研和实际。本章节将从多个实际的角度，介绍相干畛域的指标、思路、波及到的技术点、成果，心愿能给到大家肯定参考。

一、基于契约测试的校验点主动生成

契约是微服务或零碎交互间的一种接口协议的约定，契约测试实质是验证代码的变更是否导致契约生效。契约测试次要蕴含生成契约、验证契约、更新契约三个过程，其中契约测试的准确性很大水平依赖契约的验证点。校验点的主动生成是在契约已生成的前提下主动生成能保障契约满足每个consumer（生产方）需要的校验CASE，并在契约产生变更时能自动检测更新校验点。与传统接口功能测试CASE的差异是，基于契约测试的测验CASE是消费者驱动由各个consumer的需要预期组成多份测试CASE，而传统的性能接口测试CASE仅关注provider本身设计正确性，是一份功能测试CASE。

基于契约测试的测验点主动生成次要思路是，获取不同consume的需要造成契约接口的内容，如申请参数、返回等，造成每个consume的契约形容。针对不同的契约形容进行流量录制（request、response等信息），对录制好的信息进行数据预处理辨认不同consume关联字段、筛选失常返回的响应信息。依照URI、申请参数组合、response构造等做分类，实现schema的提取与转化，即实现n*consumer -> n*枚举组合的接口框架辨认；随后将接口框架导入yapi，对每个组合mock数据造成独立检查点，通过ITP CASE的模式表白契约，进而用来达成重放契约中的申请，从根本上来说CASE的参数从契约定义中来，CASE的断言为契约中返回数据的json-schema。之后再通过逆向工程实现契约感知，罕用办法之一是走读大量业务代码形象代码格调，建设契约与代码间的精准关联，从而通过辨认代码变更自动化感知契约的变更，一旦感知到契约的变更则同步更新mock数据,作为代替被测试程序的理论返回内容，实现测验CASE的自动更新。

二、基于工夫分片的C++内存泄露检测

对于曲线的校验，会利用于测试流动的大部分环节中，检测内存泄露就是典型的一个场景。然而传统的内存泄露检测时间周期长，准确率低，导致内存泄露测试工作转化较低，智能的曲线校验剖析能够解决上述问题，次要分为两个方向：

首先是准确率晋升。之前的算法是简略的人工教训判断，对测试人员教训要求高。对于这种场景应用DTW曲线类似度和Cart决策树的分类算法来实现判断是否存在内存泄露。DTW曲线类似度算法，次要通过点和点之间的差距和工夫序列的延生和缩短，计算新旧版本的内存曲线类似度，认为曲线不类似的为有内存泄露。DTW实现简略，能够疾速利用，然而也会存在一些误报警的badcase。于是持续进行优化，通过Cart决策树，将DTW曲线计算的间隔作为特色输出，再联合别的特色进行训练和预估，最终预测准确率从75%->98%

另外测试工夫缩短，之前的算法是间接应用固定工夫，这样会有极大的工夫节约。对于这种场景解决方案是通过曲线的历史数据来预测不同模块须要多久便能够收敛，而后以收敛的点来压缩工作时长，模块利用后节俭了1/3的测试时长。

三、基于动静阈值的性能diff检测

性能测试后果准确性与测试环境有着很大的关系。事实中，因为硬件差别，运行时本身环境，第三方环境的差别，导致测试存在稳定。因而咱们通过设置阈值的形式，即依据性能指标的稳定是否超过阈值，来判断是否存在危险。初期阈值都是通过人工教训设定的，然而因为工作运行时，内外部烦扰因素太多，依据单次且固定阈值进行评估不事实，也不精确。因而咱们建设了基于动静阈值的性能危险剖析策略，用以进步测试工作准确性。

动静阈值的思维次要是通过对历史报告各指标数据的剖析，实时预测各指标在以后容器下的可信度范畴。比照以后指标值与阈值，不在阈值范畴内的指标被认定为异样指标。在动静阈值的设定中，针对不同的业务特点，不同的场景，采纳不同的计算策略算法。此处简略介绍两种算法。箱式分析法的思维次要是基于咱们认为失常的指标在雷同QPS下，应该是在固定值左近飘动，合乎正态分布的。咱们依据历史测试后果计算出正态分布的参数，而后在这个散布下圈定正当阈值。这样会使得阈值不受异样值的影响，可能更精确地描绘出数据的离散散布状况。LOF算法的思维次要是通过比拟每个点p和其邻域点的密度来判断该点是否为异样点，如果点p密度越低，越可能被认定是异样点。由此失去的失常区间，取最小、最大值，作为性能可相信阈值区间。自动静阈值策略接入后，多个模块性能工作黄灯率和重试率大比例升高。

四、基于功能测试的测验点智能补全

基于功能测试的校验点智能补全，是在主动生成用例的背景下，主动生成更正确、正当、易于了解的断言，次要利用在单元测试用例的生成。在理论我的项目中，能人工通过业务性能来确认测试断言的函数，占比往往有余5%，绝大多数的函数即便被笼罩，正确性难以保障。

解决思路是通过利用机器翻译方向的模型，来主动了解被测办法、学习被测计划与开发人员编写的测试用例，来推断出可验证内容，进而生成正当的断言汇合。

首先，建设足够的裁减用例生成的数据集，蕴含大量被测代码和单测用例；而后，建设出被测函数和单测用例及其蕴含的断言的映射关系；接着，选取适合的机器翻译模型，学习样本中隐含的命名规定、逻辑、校验规定等；最初，依据学习后果输入用例。

了解被测办法是该场景的重点，须要选取适合的机器翻译模型，如TestNMT，Reformer、transformer等，并联合结合实际状况一直优化编码方式、切分形式、训练速度等。

咱们实际了基于transformer的单测生成，解决了局部未登录词（OOV）和常见词（Rare Words）的问题，断言准确率达到41%。

五、基于视觉召回的有参照和无参照召回钻研

基于视觉的有参照召回能力也称为UI DIFF，次要思维是通过比照本次要校验的页面截图与正确的UI截图，指出两者之前的差别区域，生成可视化页面报告，测试工作者可能很不便对报告进行查看。咱们针对不同的业务特点，不同的场景，采纳不同的DIFF策略算法，次要蕴含：针对网页和APP的整页diff校验、自定义区域的diff校验能力，针对不同分辨率机型的diff校验能力，针对主版和矩阵版本（例如：手百和手百大字版）的diff校验能力。此外，为了升高满足不同测试场景的需要，咱们提供了：高精版的像素级diff能力，低精版的布局款式级diff能力，间断帧动静区域过滤能力，视频、轮播图过滤能力，高类似度过滤能力等。开源数据集和技术细节详见：https://github.com/RYWei/Cros…。目前UI diff在局部重点业务线落地，辨认准确率达到90%+，笼罩约12%的业务前端我的项目，每个季度可能召回100+无效问题。

相比于有参照召回，无参照召回无需比照图片，次要针对异样黑、白屏，组件重叠，文本截断，蓝屏花屏，裂图，乱码，null等页面问题的开掘。学术和工业界通常采纳卷积神经网络实现检测。因为事实中，实在bug图片数据十分稀少，咱们采纳启发式合成技术，来结构训练数据集，解决样本有余的问题。另一方面，模型预测后果蕴含较多误报，咱们进一步设计了后处理流程，针对图像区域烦扰较多引起的误召回，通过页面构造树，过滤图片占比过大的数据；其余如广告，悬浮按钮，弹窗，toast，等误召回数据作为新的负样本，退出训练样本。如此反复屡次训练，来进步模型鲁棒性。目前咱们在重点业务线进行线上监控和巡检工作，异样纯色检测，乱码，裂图等能力实现了98%+辨认准确率，季度召回20+线上第三方起因导致的产品体验问题。同时在遍历场景发展组件重叠，文本截断技术试点。

———- END ———-

举荐浏览【技术加油站】系列：

揭秘百度智能测试在测试主动执行畛域实际

揭秘百度智能测试在测试主动生成畛域的摸索

【技术加油站】浅谈百度智能测试的三个阶段

【技术加油站】揭秘百度智能测试规模化落地

关于测试:揭秘百度智能测试在测试分析领域实践

一、基于契约测试的校验点主动生成

二、基于工夫分片的C++内存泄露检测

三、基于动静阈值的性能diff检测

四、基于功能测试的测验点智能补全

五、基于视觉召回的有参照和无参照召回钻研

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于测试:揭秘百度智能测试在测试分析领域实践

一、基于契约测试的校验点主动生成

二、基于工夫分片的C++内存泄露检测

三、基于动静阈值的性能diff检测

四、基于功能测试的测验点智能补全

五、基于视觉召回的有参照和无参照召回钻研

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复