乐趣区

关于大数据:IOTA架构下的数据采集

导读

IOTA 架构是基于 IOTA 和 AI 时代背景下的大数据架构模式,其整体技术构造的外围是贯通于整体业务始终的数据模型,具备进步整体的估算效率的作用。IOTA 架构这一概念由易观首次提出,并将其利用于最新研发的精细化经营工具中。

在之前文章中介绍过易观提出的 IOTA 架构,置信很多同学曾经对整体有了一个理解。本文将介绍 IOTA 架构下的数据采集。

通过上图能够看出,在 IOTA 架构下,在当下终端设备计算能力一般较强的状况下,SDK 不仅承载着以往的根底性能,并且被赋予了边缘计算的角色。例如在设施端就开始做数据完整性和有效性的校验、将用户行为转化成为对立的数据模型,而后传送给服务端。

一个稳固的数据采集端须要有如下性能,存储、回数、管制、爱护。

存储: 数据存储,校验以后存储数据合法性,及避免数据被第三方串改。

回数: 数据上报,加密上报数据,避免被第三方截取,保障不受 HOOK 等影响,避免 DNS 净化等。

管制: 管制发送策略,能够指定 3G/4G/wifi 环境上传,能够调整上报工夫频次、本地数据缓存规定全副可动静调整。

爱护: 有自爱护机制。不要影响用户的失常应用,缩小因逆向导致的数据异样

不言而喻,一般的采集端都具备这些性能。作为 IOTA 架构下的采集端进行了哪些优化呢?如下:

对立模型: 在 IOTA 架构下从数据采集到数据接管以及数据处理都是用一套数据模型。例如对于用户行为剖析时会用到的模型中,咱们能够形象出以下几个基本要素:产生行为主体(who),行为产生的工夫 (when), 行为的产生地点 (where),发送的事件 (what)。在 IOTA 架构下也统称为 Common Data Model。

聚合: 同样的数据进行边缘聚合计算,如某些用户拜访门路能够间接由采集端来实现,生成对应相似漏斗的事件。个别这个计算是服务器下发策略来动态控制的,当然也能够随时做出调整,值得注意的是这是不能够逆的运算,并且这种模式只实用于适宜距离发送模式的数据。

校验: 数据的残缺和有效性能够放到采集端解决,确保 SDK 给 server 的数据不是被批改的,产生的数据是正当的,这就要求采集端退出防舞弊的性能。这是一个成熟产品长期须要投入的我的项目,大部分公司的风控做的也有一部分这样的工作。典型的案例如避免 Xposed 拦挡,避免反编译,避免二次打包。

实时: 数据实时上报给服务器,这样能力让用户感觉到零提早,实时计算。如 12306 购票,要立刻的进行查看后果,不能等失去次日才看到后果。同样的带来另一个问题,集体高频上报、用户高峰期大量用户上报须要进行辨别,两者对收数服务器而言是一样的,那这个时候就须要收数服务器和采集端进行通信,动态控制。

高可控: 高可控是对数据采集最根底,也是最重要的一个要求。不然面对攻打,服务器无奈实时监控,动静调整,立刻解决,可能会导致服务器的短时间无奈失常工作 (如数据处理提早,重大的乃至宕机)。如图:


当然对于很多大数据架构中,数据采集端各不相同,这也是咱们在反对大量用户后的一个分享。

总的来说,IOTA 架构下的数据采集有如下特点:采纳对立的数据模型,反对边缘计算、反对与服务器端动静交互的控制策略。这些曾经在易观的数据产品中宽泛应用,也欢送大家试用易观方舟、易观千帆。

退出移动版