关于ab测试:火山引擎DataTesterAB实验平台数据集成技术分享

8次阅读

共计 3716 个字符,预计需要花费 10 分钟才能阅读完成。

DataTester 的数据集成系统,可大幅升高企业接入 A / B 试验平台门槛。当企业想要接入一套 A / B 试验平台的时候,经常会遇到这样的问题:企业曾经有一套埋点零碎了,减少 A / B 试验平台的话须要反复做一遍埋点,费时费力;企业有多个客户端和数据中台并行的状况,这些不同起源的数据难以整合进一个 A / B 试验平台;间隔下次大促只有一周工夫了,业务想疾速开启 A / B 试验,工夫紧迫;……A/ B 试验筹备的全流程如图下所示。当企业在已有埋点的状况下,如果想 0 - 1 开启 A / B 试验,通常要占用大量人力来做数据处理。须要梳理埋点列表、确定 id 映射关系、确定埋点数据类型、确定导入工夫范畴、批改业务解决逻辑、代码编写、测试环境调试 ……

当经验完屡次调试验证后,数据接入实现,工作却远未完结,随同而来的是数据对齐校验、前期工作运维等。这些繁琐的工作,使企业“开启 A / B 试验”的门槛极高,也会带来诸多数据差别的隐患。为解决企业开启 A / B 试验老本过高的问题,火山引擎 A / B 测试平台(DataTester)专门研发了数据集成能力。本文将对 DataTester 的数据集成平台做技术解读。DataTester 是由火山引擎推出的 A / B 测试与智能优化平台,它脱胎于字节跳动长期积淀,历经字节外部超 150 万次试验打磨,为企业的增长、转化、产品迭代,策略优化,经营提效等各环节提供迷信的决策依据。DataTester 的数据集成能力,能够真正解决多源数据集成、数据荡涤和数据预处理问题,进步企业的 A / B 测试效率和准确性,从而为企业开试验提供无力的反对。

上图是应用 DataTester 数据集成平台最根底的配置流程,能够看到,用户只须要在页面上注销数据源信息、映射逻辑、任务调度配置,就能够疾速的同步多源数据,实现数据配置和接入。DataTester 的数据集成有哪些能力火山引擎 DataTester 的数据集成,次要提供了帮忙企业导入第三方数据到 A / B 零碎的能力,它能够解决企业在数据接入过程中的如下痛点:数据起源简单:对于须要从多个数据起源获取数据的企业来说,整合数据要当时理解 A / B 试验的事件格局和埋点应用标准,手动导入数据十分繁琐耗时。DataTester 数据集成平台提供了疾速导入多种数据源的能力,用户能够轻松将数据汇总到一处。数据品质参差不齐:多个数据源的数据会有参差不齐的状况,DataTester 数据集成平台能够主动进行数据荡涤和转换,确保导入的数据品质良好,防止因为数据品质问题带来的试验谬误。人力老本昂扬:如果采纳惯例的手动导入数据和荡涤解决的形式,会破费较多工夫人力,DataTester 数据集成平台智能数据处理,可大幅升高数据处理的工夫和老本。一键式的数据导入在以往,企业如果心愿接入新的 A / B 测试平台,在第一步的数据集成阶段通常只有通过 SQL 开发或业务代码编写的形式接入。DataTester 数据集成平台提供了可视化的工作配置能力,用户能够通过点击、拖拽等模式实现数据接入;数据集成平台将主动实现数据类型转化、数据荡涤等性能。这种“一键式”的数据导入能够最大水平加重企业在数据集成阶段的工夫人力老本。

可视化的工作运维用户通过可视化的形式来监控、治理和保护数据工作的运行状态和运行状况。这样的形式能够更加便捷地理解工作状态和运行状况,及时发现并解决问题。

丰盛的数据集成市场 DataTester 数据集成反对行为数据、用户属性等历史数据回溯、实时数据同步的能力,并预置了多款数据配置模板,能够一键同步异构数据源数据。

可扩大的数据插件提供丰盛的内嵌插件,反对罕用的数据处理逻辑。例如:数字四则运算、字符串解决、字段映射等等。除此之外,DataTester 数据集成也提供自定义函数的能力,企业能够在平台依据理论业务逻辑定义 UDF,并集成在数据导入工作中。数据集成平台的技术实现平台架构下图为火山引擎 DataTester 数据集成平台的整体架构,性能上,DataTester 数据集成系统采纳三层架构,包含 web 层、Service 层和数据处理服务。Web 层:提供治理控制台,用户能够不便地配置和治理数据集成工作,查看工作的执行状态;Service 层:提供工作治理、监控和调度治理,反对用户对工作进行疾速响应和监控。数据处理层:则提供对各种内部数据源的解决,通过插件形式反对多种异构数据源的集成,目前曾经反对关系型数据库、音讯队列等等。

零碎架构上思考了高可用、高扩大和高性能的设计。高可用:任务调度和运行反对多租户资源隔离,保障不同租户之间的工作执行不会相互影响。高扩大:数据处理工作反对分布式解决数据源数据,针对不同负载可反对程度伸缩;高性能:通过分布式执行框架保证数据集成工作的并行处理,能够满足大数据场景下的集成需要;底层能力 DataTester 数据集成基于 Apache SeaTunnel 二次开发,数据传输工作采纳 Framework + plugin 架构构建。将数据源读取和写入形象成为 Connect(Source/Sink) 插件,纳入到整个数据同步框架中。Source:Source 为数据采集模块,负责采集数据源的数据,将数据发送给上游 Transform。Sink:Sink 为数据写入模块,负责一直向 Transform 取数据,并将数据写入到目标端。Transform:Transform 用于连贯 Source 和 Sink,作为两者的数据传输通道,并解决缓冲、并发、监控、数据转换解决等核心技术问题。Transform 是 DataTester 数据集成的业务解决要害内容。咱们内置多个默认插件,主动帮忙用户实现用户剖析口径映射、事件格局转换、数值解决、字段映射等等逻辑,同时也提供入口供用户减少插件,内嵌至自有工作中。

监控报警 DataTester 数据集成平台采纳了 InfluxDB 来运行数据监控。InfluxDB 是一款专门解决高写入和查问负载的时序数据库,用于存储大规模的时序数据并进行实时剖析。在每个监控工作提交后,DataTester 将会在数据处理过程中减少胜利、失败的数据埋点,并最终落入 InfluxDB 对外展现。在企业的罕用利用场景中,数据集成监控报警次要起到以下几个作用:及时发现数据集成中的异常情况,比方数据传输失败、数据失落、反复数据等,防止数据不统一或失落的状况产生,保障数据的准确性和完整性。对于数据传输量较大或数据传输须要保障实时性的场景,能够通过实时监控和报警形式,及时发现零碎存在的问题,并可能疾速采取措施,保障数据失常传输。晋升数据集成的可靠性和稳定性,缩小企业损失和老本,放慢业务流程的执行速度,进步企业效率和竞争力。在数据安全方面有着重要的作用,及时发现和解决数据传输过程中的异常情况,确保数据的平安传输和隐衷爱护。

企业案例某金融公司打算应用火山引擎 DataTester 开启信用卡分期优惠 A / B 试验,预期赶在大促前上线该试验并拿到反馈;而面对的问题是:1. 现有埋点体系简单,有大量有效埋点和简单埋点判断 2. 反复埋点老本很高,依赖客户端行为事件和服务端事件 3. 工夫节点比拟缓和,必须赶在大促前拿到试验反馈;因而进行试验十分具备挑战。针对如上背景,他们应用了 DataTester 数据集成平台来解决以上问题。他们在数据集成平台注册已有数据源信息,配置数据字段映射逻辑,将客户端和服务端所有事件数据进行主动捕获和同步,从而使试验无需老本地进行反复埋点;另一方面,通过数据集成的插件能力,企业能够实现简略的数据荡涤和字段加工,从而能够解决已有的埋点问题。通过这些解决方案的帮忙下,该金融公司胜利地实现了试验,并取得了重要的反馈和优化倡议。此外,DataTester 也在数据集成、数据同步、数据安全等方面为企业提供了全方位的反对,确保企业我的项目可能胜利落地,并为其带来重要价值。DataTester 的“可视化数据集成”及“集成工作台”计划,能够帮忙企业将来自三方的数据导入到 A / B 零碎中,无需额定通过传统 SQL 开发或者业务代码编写等形式来进行数据集成,能够实现对历史数据资产间接复用,极大水平升高零碎反复建设老本。据理解,目前可视化数据集成性能在企业数据接入方面能带来高达 8 倍的提效。结语火山引擎 DataTester 始终致力于为企业提供业界最易用、最迷信和最高效的 A / B 试验平台。为了进步产品在数据集成的能力和服务水平,产品将来将在以下几个方面一直演进和欠缺:提供更丰盛的数据集成模板:DataTester 将反对更多埋点采集剖析产品的数据模板,让更多的企业可能轻松实现数据同步,并实现一键式的数据集成。加强可视化工作配置能力:将继续晋升函数自定义和工作配置的性能,采纳零代码的“利落拽”形式,不便企业用户疾速配置数据工作。加强数据监控运维能力:将进一步扩大报警渠道与指标,提供工作失败诊断信息,并依据数据状况提供数据品质剖析报告,帮助企业评估数据品质和准确性。数据集成能力凋谢:将提供数据源、数据模板和数据插件的凋谢接口,让更多的用户可能通过开源形式利用咱们的 A / B 试验平台工具,推动 A / B 测试生态的久远倒退与壮大。(文 / 火山引擎 DataTester 静静)

正文完
 0