关于ab测试:火山引擎DataTesterAB实验平台数据集成技术分享

DataTester的数据集成系统，可大幅升高企业接入A/B试验平台门槛。当企业想要接入一套A/B试验平台的时候，经常会遇到这样的问题：企业曾经有一套埋点零碎了，减少A/B试验平台的话须要反复做一遍埋点，费时费力；企业有多个客户端和数据中台并行的状况，这些不同起源的数据难以整合进一个A/B试验平台；间隔下次大促只有一周工夫了，业务想疾速开启A/B试验，工夫紧迫；……A/B试验筹备的全流程如图下所示。当企业在已有埋点的状况下，如果想0-1开启A/B试验，通常要占用大量人力来做数据处理。须要梳理埋点列表、确定id映射关系、确定埋点数据类型、确定导入工夫范畴、批改业务解决逻辑、代码编写、测试环境调试……

当经验完屡次调试验证后，数据接入实现，工作却远未完结，随同而来的是数据对齐校验、前期工作运维等。这些繁琐的工作，使企业“开启A/B试验”的门槛极高，也会带来诸多数据差别的隐患。为解决企业开启A/B试验老本过高的问题，火山引擎A/B测试平台（DataTester）专门研发了数据集成能力。本文将对DataTester的数据集成平台做技术解读。DataTester是由火山引擎推出的A/B测试与智能优化平台，它脱胎于字节跳动长期积淀，历经字节外部超150万次试验打磨，为企业的增长、转化、产品迭代，策略优化，经营提效等各环节提供迷信的决策依据。DataTester的数据集成能力，能够真正解决多源数据集成、数据荡涤和数据预处理问题，进步企业的A/B测试效率和准确性，从而为企业开试验提供无力的反对。

上图是应用DataTester数据集成平台最根底的配置流程，能够看到，用户只须要在页面上注销数据源信息、映射逻辑、任务调度配置，就能够疾速的同步多源数据，实现数据配置和接入。DataTester的数据集成有哪些能力火山引擎DataTester的数据集成，次要提供了帮忙企业导入第三方数据到A/B零碎的能力，它能够解决企业在数据接入过程中的如下痛点：数据起源简单：对于须要从多个数据起源获取数据的企业来说，整合数据要当时理解A/B试验的事件格局和埋点应用标准，手动导入数据十分繁琐耗时。DataTester数据集成平台提供了疾速导入多种数据源的能力，用户能够轻松将数据汇总到一处。数据品质参差不齐：多个数据源的数据会有参差不齐的状况，DataTester数据集成平台能够主动进行数据荡涤和转换，确保导入的数据品质良好，防止因为数据品质问题带来的试验谬误。人力老本昂扬：如果采纳惯例的手动导入数据和荡涤解决的形式，会破费较多工夫人力，DataTester数据集成平台智能数据处理，可大幅升高数据处理的工夫和老本。一键式的数据导入在以往，企业如果心愿接入新的A/B测试平台，在第一步的数据集成阶段通常只有通过SQL开发或业务代码编写的形式接入。DataTester数据集成平台提供了可视化的工作配置能力，用户能够通过点击、拖拽等模式实现数据接入；数据集成平台将主动实现数据类型转化、数据荡涤等性能。这种“一键式”的数据导入能够最大水平加重企业在数据集成阶段的工夫人力老本。

可视化的工作运维用户通过可视化的形式来监控、治理和保护数据工作的运行状态和运行状况。这样的形式能够更加便捷地理解工作状态和运行状况，及时发现并解决问题。

丰盛的数据集成市场DataTester数据集成反对行为数据、用户属性等历史数据回溯、实时数据同步的能力，并预置了多款数据配置模板，能够一键同步异构数据源数据。

可扩大的数据插件提供丰盛的内嵌插件，反对罕用的数据处理逻辑。例如：数字四则运算、字符串解决、字段映射等等。除此之外，DataTester数据集成也提供自定义函数的能力，企业能够在平台依据理论业务逻辑定义UDF，并集成在数据导入工作中。数据集成平台的技术实现平台架构下图为火山引擎DataTester数据集成平台的整体架构，性能上，DataTester数据集成系统采纳三层架构，包含web层、Service层和数据处理服务。Web层：提供治理控制台，用户能够不便地配置和治理数据集成工作，查看工作的执行状态； Service层：提供工作治理、监控和调度治理，反对用户对工作进行疾速响应和监控。数据处理层：则提供对各种内部数据源的解决，通过插件形式反对多种异构数据源的集成，目前曾经反对关系型数据库、音讯队列等等。

零碎架构上思考了高可用、高扩大和高性能的设计。高可用：任务调度和运行反对多租户资源隔离，保障不同租户之间的工作执行不会相互影响。高扩大：数据处理工作反对分布式解决数据源数据，针对不同负载可反对程度伸缩；高性能：通过分布式执行框架保证数据集成工作的并行处理，能够满足大数据场景下的集成需要；底层能力DataTester数据集成基于Apache SeaTunnel二次开发，数据传输工作采纳Framework + plugin架构构建。将数据源读取和写入形象成为Connect(Source/Sink)插件，纳入到整个数据同步框架中。Source：Source为数据采集模块，负责采集数据源的数据，将数据发送给上游Transform。Sink： Sink为数据写入模块，负责一直向Transform取数据，并将数据写入到目标端。Transform：Transform用于连贯Source和Sink，作为两者的数据传输通道，并解决缓冲、并发、监控、数据转换解决等核心技术问题。Transform是DataTester数据集成的业务解决要害内容。咱们内置多个默认插件，主动帮忙用户实现用户剖析口径映射、事件格局转换、数值解决、字段映射等等逻辑，同时也提供入口供用户减少插件，内嵌至自有工作中。

监控报警DataTester数据集成平台采纳了InfluxDB来运行数据监控。InfluxDB 是一款专门解决高写入和查问负载的时序数据库，用于存储大规模的时序数据并进行实时剖析。在每个监控工作提交后，DataTester将会在数据处理过程中减少胜利、失败的数据埋点，并最终落入InfluxDB对外展现。在企业的罕用利用场景中，数据集成监控报警次要起到以下几个作用：及时发现数据集成中的异常情况，比方数据传输失败、数据失落、反复数据等，防止数据不统一或失落的状况产生，保障数据的准确性和完整性。对于数据传输量较大或数据传输须要保障实时性的场景，能够通过实时监控和报警形式，及时发现零碎存在的问题，并可能疾速采取措施，保障数据失常传输。晋升数据集成的可靠性和稳定性，缩小企业损失和老本，放慢业务流程的执行速度，进步企业效率和竞争力。在数据安全方面有着重要的作用，及时发现和解决数据传输过程中的异常情况，确保数据的平安传输和隐衷爱护。

企业案例某金融公司打算应用火山引擎DataTester开启信用卡分期优惠A/B试验，预期赶在大促前上线该试验并拿到反馈；而面对的问题是：1. 现有埋点体系简单，有大量有效埋点和简单埋点判断 2. 反复埋点老本很高，依赖客户端行为事件和服务端事件 3. 工夫节点比拟缓和，必须赶在大促前拿到试验反馈；因而进行试验十分具备挑战。针对如上背景，他们应用了DataTester数据集成平台来解决以上问题。他们在数据集成平台注册已有数据源信息，配置数据字段映射逻辑，将客户端和服务端所有事件数据进行主动捕获和同步，从而使试验无需老本地进行反复埋点；另一方面，通过数据集成的插件能力，企业能够实现简略的数据荡涤和字段加工，从而能够解决已有的埋点问题。通过这些解决方案的帮忙下，该金融公司胜利地实现了试验，并取得了重要的反馈和优化倡议。此外，DataTester也在数据集成、数据同步、数据安全等方面为企业提供了全方位的反对，确保企业我的项目可能胜利落地，并为其带来重要价值。DataTester的“可视化数据集成”及“集成工作台”计划，能够帮忙企业将来自三方的数据导入到A/B零碎中，无需额定通过传统SQL开发或者业务代码编写等形式来进行数据集成，能够实现对历史数据资产间接复用，极大水平升高零碎反复建设老本。据理解，目前可视化数据集成性能在企业数据接入方面能带来高达8倍的提效。结语火山引擎DataTester始终致力于为企业提供业界最易用、最迷信和最高效的A/B试验平台。为了进步产品在数据集成的能力和服务水平，产品将来将在以下几个方面一直演进和欠缺：提供更丰盛的数据集成模板：DataTester将反对更多埋点采集剖析产品的数据模板，让更多的企业可能轻松实现数据同步，并实现一键式的数据集成。加强可视化工作配置能力：将继续晋升函数自定义和工作配置的性能，采纳零代码的“利落拽”形式，不便企业用户疾速配置数据工作。加强数据监控运维能力：将进一步扩大报警渠道与指标，提供工作失败诊断信息，并依据数据状况提供数据品质剖析报告，帮助企业评估数据品质和准确性。数据集成能力凋谢：将提供数据源、数据模板和数据插件的凋谢接口，让更多的用户可能通过开源形式利用咱们的A/B试验平台工具，推动A/B测试生态的久远倒退与壮大。（文/火山引擎DataTester 静静）

关于ab测试:火山引擎DataTesterAB实验平台数据集成技术分享

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于ab测试:火山引擎DataTesterAB实验平台数据集成技术分享

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复