关于大数据:易观郭炜流动水系数造未来

10 月 26 日 -27 日，2018 易观 A10 大数据利用峰会在北京如期召开，本次峰会以 “数造将来精益成长” 为主题。来自国内外的大数据实践者、资本掌舵人、企业家、技术大咖、经营专家、利用开发者以及出名媒体人齐聚一堂，独特探讨和分享在数据驱动下的企业精益成长之道。

在 10 月 27 日上午举办的易观 A10 峰会数造将来主论坛上，易观 CTO 郭炜 做了题为 《流动水系数造将来》 的主题演讲，郭炜在演讲中以本身丰盛的技术从业教训，为咱们分享大数据下的数据难题以及应答办法。以下为其演讲实录：

对于大数据，企业常常会遇到这样的问题：大数据大而不强、人工智能人工而不智能 。为什么这么讲？过来咱们在做大数据时，常常把企业认为有价值的数据都存在一起，但当咱们应用的时候，会发现随着数据的沉积，越来越难以使用这些数据，为什么呢？因为随着工夫的流逝，数据的定义、数据的格局、业务的含意曾经逐步都发生变化，越来越不清晰。 随着工夫的变动，咱们的数据湖（Data Lake）最终变成了一片数据沼泽。

我置信很多企业都会遇到这样的问题，于是有些企业开始做 大数据治理 。但真正 数据治理十分艰难，这是为什么呢？因为长时间积攒下来的数据，每次规整和删除都十分苦楚，不晓得哪个业务部门在应用它，不晓得它真正的含意，或者未来是不是能够用到它。

每一次 CTO 和 CIO 都会遇到这个问题，大数据的价值到底在哪？感觉本人的大数据团队人员永远有余；感觉大数据存储永远不够；数据永远难以满足业务剖析维度，还有不对立的数据规范融入等等一系列问题。

当然易观也遇到这样的问题，易观 SDK 月活靠近 5.9 个亿，约 6.8PB 的数据存储，目前咱们曾经存储到了 90%。当我找老板要服务器，跟老板汇报说：“咱们 6.8PB 数据曾经存满，当初只能存储不到一年数据，咱们须要更多的存储”，老板问，“这些数据在哪里应用，有什么用？”而我还持续说，“下一步物联网数据要来了，IOT 数据的量级是咱们当初挪动互联网量级的 10 倍，还要多 10 倍的存储”。老板睁大眼睛问我说，“郭炜啊，你感觉咱们这些数据的价值在哪里？”这是咱们每一个 CTO 或者大数据总监去跟老板要资源的时候都会遇到的问题，那么咱们该怎么解决这个问题？

答案就是咱们要给企业做一个 数据驱动的中台 。很多企业都晓得数据中台的概念，认为数据中台就是把各种数据组件打包、把大数据存储好即可。然而这样做随着工夫积攒，数据中台就会从数据湖变成数据沼泽。怎么办呢？咱们的实践是提出一个数据河的概念。中国有句俗话叫“流水不腐，户枢不蠹”，就是 数据肯定像河水一样流动起来，才不会产生瘀泥。

那数据河的概念是什么？数据河就是从数据产生端间接通过 IOTA 数据河实时流向数据使用者。这样有个益处，每一个数据的产生者都会有一个使用者，而不是大家设想中说这个数据很有用，但数据谁用了我不晓得，只是单纯把它存储下来。

这样做，会带来什么益处呢？数据的每一次产生和应用都是确定的，是否要存留是依据咱们数据使用者的状况去做的。大家都在探讨数据治理，这其实是一件十分苦楚的事。在 10 年前，我在 IBM 给一个数据银行做数据治理，那个我的项目过后消耗了两年多工夫，数据治理是件很简单的事。但当咱们变成数据河当前，咱们能够 通过飞轮驱动效应来实现大数据治理。

什么叫 飞轮驱动效应？这个名词来自于亚马逊，意味着一个货色在转起来的时候是本人驱动本人在减速运行。数据的使用者特地关注最初数据产生时的样子，所以当你的河水产生净化，外面数据品质不好的时候，不必放心最初变成瘀泥的时候再治理会很难。你的数据使用者会第一工夫通知你：对不起，咱们的数据有问题。

当把数据河放到整个企业的时候就会造成 数据水生态。并不是说一个企业本人一条河流或者一个水系就能把所有的河都治理好。大数据是凋谢的，是要流动的。所以咱们在内部会有第三方合作伙伴，他们会把一些数据实时灌注到企业里，帮忙把企业里的数据水系裁减得更好。

再说说什么是 IOTA 架构？大数据 IOTA 架构是易观今年年初提出的。咱们所提倡的大数据不是存下来，而是实时流动起来的。它分为几局部，边缘计算的 SDK，对立数据模型，云端存储于计算引擎。

IOTA 架构能够演绎以下 4 个特点：去 ETL 架构；边缘 SDK 计算；非结构化实时转化结构化数据存储；反对 IOT 设施。

大家过来在做大数据计算的时候，都要把它放到云端，放到一个平台外面去算，但随着咱们手机端越来越弱小，大家发现其实当初的手机可能就像 5 年前的电脑一样弱小。为什么咱们还要把所有的数据放到云端去算？IOTA 架构给了大家一个答案，咱们的数据其实在数据产生的时候就边缘 SDK 计算了，在云端时只负责存储和查问。

而对立数据模型，就是 IOTA 架构下从头至尾从云端、计算端到最初应用端都是一套数据模型。我举一个大家在做用户行为剖析时会应用的模型，叫做 主谓宾模型：就是谁、什么工夫、在哪、干了什么。比方，过来看挪动端用户行为数据的时候，很简略，某一个用户的 ID 在这个页面点击了这个按纽；而 IOT 时代，智能 wifi 去采集的时候也是一样这个模型——能够看到用户的 MAC 地址什么工夫呈现在哪一个楼层；对于人脸摄像头来讲也是如此，人脸的特色什么工夫进入某一个汽车站。同样你会发现，在过来做各种各样数据采集的时候，每一次都要在云端做 ETL 简单的事件，而 IOTA 架构把数据扩散在数据产生端，就能够去解决在云端解决时的各种简单状况。

当然 IOTA 架构也有它的毛病，就像咱们后面提到，一个 IOTA 架构的数据河只能解决一个主题域的数据，比如说用户行为的对立数据模型，对于另一个主题域咱们会有另外一条 IOTA 的数据河让它去解决，例如产品生产和库存。

IOTA 架构的益处就是在数据的产生端，间接实时传送给最初的用户行为剖析人员去应用，而不是把它寂静下来再看怎么去做，这样间接进步了咱们整个大数据的应用效率，实现了数据驱动的业务闭环。

易观本人基于 IOTA 架构开发了一个实例，叫做 易观秒算 ，由底层边缘的 SDK 到相干的数据接入子模块，到查问引擎反对前端利用，目前曾经在 易观方舟产品 中应用。而昨天公布的 企业成长版易观方舟 就是基于企业生态水系实现营销闭环的数据平台，它既有能采集到企业外部的各种不同数据的 SDK（手机端、小程序、H5、Java、Python 等），也反对易观或第三方任何一家的内部数据增补，还能够对接企业外部的 ERP、CRM 数据。而底层的秒算引擎提供让 BI 和大数据人员二次开发的 SQL 接口，以便企业精细化经营闭环的各种剖析和应用。

对于易观方舟来讲，咱们提供的是一个 PAAS 平台，就像咱们方才说的数据生态一样，咱们不认为易观一家就能够把这个平台做好。所以易观怀着十分凋谢的心态违心和大家单干。那么易观能给大家提供什么呢？

易观通过 18 年的积攒，曾经有三千多家企业客户，咱们违心和大家一起共享资源。

易观有丰盛的数据资源，每个月月活 5.9 亿设施的数据资源。心愿有更多算法公司或者集体开发者加盟到联盟中，一起利用好这些数据。

易观有 IOTA 架构的方舟 PAAS，大家能够在下面开发本人的组件，易观将帮忙你们把这些组件打包卖给客户实现盈利。

当然，咱们也有深刻行业的各种业务剖析场景。无论你是企业还是开发者，咱们都能够提供多种场景帮忙大家解决相干商业问题，与大家独特推动国内大数据生态倒退。

在这，我也代表易观，期待更多大数据开发者和企业加盟，给国内外企业提供更好的大数据服务。谢谢各位！