关于大数据:分析-BAT-互联网巨头在大数据方向布局及大数据未来发展趋势

风起云涌的大数据战场上，早已迎百花齐放凋敝盛景，各大企业减速跑向“大数据时代”。而咱们作为大数据的践行者，在这个“多智时代”如何能力跟上大数据的潮流，把握住大数据的倒退方向。

大数据起源于 2000 年左右，也就是互联网高速倒退阶段。通过几年的倒退，到 2008 年 Hadoop 成为 Apache 顶级我的项目，迎来了大数据体系化的疾速发展期，到现在 Hadoop 已不单单指一个软件，而成为了大数据生态体系的代名词。

自 2014 年以来，国内大数据企业层出不穷，能够用“乱花渐欲迷人眼”形容现状，也是在这一年，我国《政府工作报告》首次提出“大数据”，大数据作为一种新兴产业正式登陆中国舞台。之后，又回升至国家策略。自此“大数据”这三个字频繁呈现在各大媒体上。

在大数据的倒退历程中，互联网企业是布局较早且交融较深的行业之一。因其互联网属性的劣势在大数据畛域布局较早。

而提到国内互联网大数据企业，就不得不提国内互联网三巨头（百度、阿里、腾讯），三巨头的大数据业务围绕其本身业务倒退而成：百度重算法、阿里重电商、腾讯重社交，出于本身策略，三巨头在大数据畛域的布局方面各有重心，反映出其企业倒退方向的策略和思路。

BAT 是我国互联网企业中大数据布局较早也是较具备竞争劣势的公司。其中，阿里布局大数据产业最早，腾讯次之，百度则最晚。

阿里大数据倒退策略在 2008 年提出，随后围绕电商业务，阿里在数据集群、数据仓库等方面做出了部署。

现在，提到阿里大数据，能够从两方面来作察看：一是以阿里电商业务根底建设起来的阿里数据；二是阿里云。

阿里数据以淘宝、天猫、阿里妈妈等平台为业务线，通过数据采集、数据计算、数据服务、数据利用等环节，造成从数据采集到数据利用的闭环零碎

阿里云则次要以在线公共服务的形式，为用户提供云服务器、云数据库、云平安等云计算服以及大数据、人工智能服务、精准定制等基于场景的行业解决方案。创建于 2009 年，现在，阿里云已成为寰球前三大公共云服务提供商。

另一方面阿里也是非常有远见的，早在 15、16 年开始做 Flink，深耕布局、落地双 11、孵化 Blink，据称搞了上百人的团队，在国内外的技术会议上一直宣传推广，在 2019 年开年，阿里以 9000 万欧元收买了 Apache Flink 母公司 Data Artisans，将 Flink 支出囊中，目前，Flink 能够称之为 Apache 基金会中最为沉闷的我的项目之一，在 GitHub 上其访问量在 Apache 我的项目中位居前三。同时，在寰球范畴内，优步、网飞、微软和亚马逊等国内互联网公司也逐步开始应用 Apache Flink。

2009 年 1 月，腾讯搭建第一个 Hadoop 集群，标记着腾讯大数据之路正式开启。

与阿里不同，腾讯大数据次要围绕其社交、游戏业务开展。坐拥着海量的用户数据。

基于微信、QQ 等社交工具，通过对移动用户的数据分析，建设用户集体画像（如用户的社会关系、性情禀赋、兴趣爱好等）提供相应的营销服务。

工具，工具次要有腾讯挪动推送信息“信鸽”，同样也是围绕腾讯的社交用户数据开发而成，提供向用户推送音讯的服务。

腾讯云，起步比阿里云晚几年，目前临时落后于阿里云，然而云计算市场是一个马拉松赛，起步早是一方面，但最终还是要看谁能保持到最初。

之前看过一篇资讯，中国 IT 首领峰会在深圳举办，在一个对话环节。

李彦宏说：“云计算这个货色不客气一点讲它是新瓶装旧酒，没有新货色。”

马化腾说：” 云计算让计算能力、解决能力甚至逻辑组件都可能像水和电一样应用，确实是有设想空间的，但可能你过几百年、一千年后才可能实现，当初还是的确过早了。”

马云大略意思：“云计算这个货色应该好好做，明天就应该做，如果阿里巴巴不做云计算，腾讯、百度会把阿里巴巴赶出电子商务门口。“

从对话中能看出马云的眼光很好。李彦宏和马化腾虽都是技术出身，但没有一个老师出身的马云眼光久远。

另一点，腾讯相比其余巨头在技术方面要低调不少。技术大牛很少进去做报告，更不会向百度、阿里那样被动包装宣传技术大牛。其技术尽管低调，但执行力很强。据腾讯的程序员敌人说关闭开发、个体加班是常有的事件。但配套的重金激励也能跟上。重金之下必有勇夫！

BAT 中，百度大数据策略提出工夫最晚，但动作频频。

2013 年，百度成立深度学习实验室（IDL），发力人工智能。

2014 年，百度对外发表凋谢“大数据引擎”，以凋谢云、数据工厂和百度大脑三个为外围组件，
通过平台化和接口化的形式，对外开放其大数据存储、剖析和智能化解决等外围能力。作为寰球首个凋谢大数据引擎，百度“大数据引擎”已与政府、非政府组织、制作、医疗、金融、批发和教育等传统畛域开展单干。

同年 8 月，百度与联合国发表启动策略单干，共建大数据联结实验室 (bdl)，摸索利用大数据解决寰球
性问题的翻新模式。
2017 年 3 月 2 日，百度揭牌深度学习技术及利用国家工程实验室，“国字号”AI 实验室落户百度。

能够看出，百度不同于阿里和腾讯根本以本身业务布局大数据，其大数据布局侧重于新方向，在人工智能上尤其突出。不过，梳理百度大数据的数据产品能够发现，其大数据产品波及数据分析、数据风控、数据营销等，布局较广。

大数据技术倒退到现在，曾经造成了齐备的体系结构及利用方向，技术迭代速度十分快，新框架层出不穷，大数据利用方向一直细化，从业人员越来越多。

大数据时代，数据量大，数据源异构多样，数据时效性等特色催生了大量的新技术需要。在这样的需要下，诞生了 规模化并行处理（MPP） 的分布式计算框架；面向海量的非结构化数据，呈现了 Hadoop、Spark 等生态体系的 分布式批处理框架 ；面对时效性及实时处理的需要，呈现了 Flink、Spark Streaming 等 分布式流解决框架。

下图为 Apache 生态下的大数据框架：

将来在 Apache 中孵化胜利的大数据框架会越来越多，大数据生态体系会越来越欠缺，也意味着大数据的门槛会越来越低，入行的人越来越多。所以为了咱们不被时代所淘汰，须要一直学习，后期学习广度，前期专一深度。潜心一技，练到极致！

利用层面

大数据在利用层面划分了以下几个大类：金融大数据、营销大数据、交通物流大数据、医疗大数据、教育大数据、娱乐大数据 等。

咱们接下来以大数据科研及大数据企业两方面进行剖析：

自 2012 年大数据宽泛理论利用以来，产业界和学术界在大数据技术与利用方面的钻研翻新一直获得冲破，大数据畛域的论文发表数量快速增长。

以下为 2012-2020 年寰球大数据论文发表数量及各国占比：

数据起源：Web of Science，2020 年 10 月

从上图能够看出，论文发表数量在 2018 年达到高峰，是 2012 年的 5.4 倍，年增长率为 32.5%，随后 2019 年论文数量开始降落，2020 年全年数量预计较去年还会近一步下滑，这也阐明 随着科学研究的一直停顿，大数据的相干理论体系逐步成熟，将来学术论文发表增长速度或将放缓。

从国家来看，中国和美国依然是大数据学术研究的外围地带。发表的论文数量遥遥领先于其余国家。将来在大数据畛域，应该还是以中国和美国为首，率领大数据技术走向更高的程度。

再来看国内大数据产业的倒退情况，依据工业和信息化部公布的数据显示，2019 年我国以云计算、大数据技术为根底的平台类技术服务收入 2.2 万亿元，其中，典型云服务和大数据服务支出达 3284 亿元，提供服务的企业达 2977 家，由此可见，大数据产业倒退日益壮大。

大数据企业数量增长统计

数据起源：中国信息通信研究院，2020 年 10 月

从上图能够看出国内大数据企业在 2014 年、2015 年出现爆发式增长，而在 2016 年
后又有回落，这与大数据在我国的倒退情况绝对应。2014 年被称为大数据元年，随后在国家政策的反对下，各大数据企业应运而生，之后随着创业者的沉着，大数据企业也趋于缩小。

是否有国资背景

数据起源：数据观

大数据行业尽管有国家政策的反对，但大部分还是以私企为主，具备国资背景的企业较少，只占总体的 13%。

大数据企业地区散布

数据起源：中国信息通信研究院，2020 年 10 月

由表中数据能够得出，北京是大数据企业的“高发区”，占比为 35%，其次是广东（18%），之后是上海（16%），而后是浙江（8%），所以我国大数据企业次要散布在北京、广东、上海、浙江等经济发达省份。

大数据行业利用企业类型散布

数据起源：中国信息通信研究院，2020 年 10 月

从图中能够看出大数据波及的行业是十分宽泛的，其中以金融、医疗衰弱、政务为大数据行业利用的次要类型。除此之外顺次是互联网，教育，交通运输，电子商务等。

大数据获投轮次散布

数据起源：中国信息通信研究院，2020 年 10 月

从上图看出获天使轮、A 轮融资企业较多，阐明我国大数据企业数量尽管泛滥，但大部分处于初级阶段，技术能力、技术落地能力有待进步。另一方面也阐明投资机构对大数据市场仍然充斥信息，对将来估值抱有很大冀望。

以下观点起源：中国信息通信研究院

大数据自诞生以来始终因循着基于 Hadoop 或者 MPP 的分布式框架，造成了具备存储、计算、解决、剖析等能力的残缺平台，大数据分布式框架采纳存储与计算耦合，使数据在本身存储的节点上实现计算，以升高交互。

然而理论业务中数据存储与计算能力要求不同且各自独立的。在存储与计算耦合的状况下，当二者之一呈现瓶颈时，资源的横向扩大必然导致存储或计算能力的冗余，造成难以避免的额定老本。

存储与计算拆散无效管制老本。存储与计算在数据的生命周期中剥来到，造成两个独立的资源汇合。两个资源汇合之间互不干涉又通力协作，使得单位资源的老本尽量减少，同时兼具充沛的弹性以供横向扩大。这种模式应是将来的倒退方向。

目前国内外泛滥厂商已深刻进行了存算拆散的实际。国内像阿里云应用本身 EMR+OSS 产品代替原生 Hadoop 存储架构，整体费用预估降落 50%。华为应用本身 FusionInsight+EC，存储利用率从 33% 晋升至 91.6%。

国外像 Snowflake 公司提出的 数据仓库服务化(DaaS)，将剖析能力以云服务的模式在 AWS 等云平台上提供按次计费的服务。

目前大数据畛域的数据管理依赖人工操作，老本微小。在基于机器学习的人工智能不断进步的状况下，更加自动化智能化的数据管理平台将会助力数据管理工作高效进行。

其中以 数据建模、数据标签、主数据发现、数据规范利用 成为次要的利用方向。

以社交网络、用户行为、网页链接关系等为代表的数据，往往须要通过“图”的状态以最原始、最直观的形式展示其关联性。

所以 专一于图构造数据的图剖析技术成为数据分析技术的新方向 。与图剖析相干的技术成为热点的产品方向，其中以 图数据库、图计算引擎、常识图谱 三项技术为主。

依据 DB-Engines 排名剖析，图数据库关注热度在 2013-2020 年间增长了 10 倍，关注度增长排名第一。国内阿里云、华为、腾讯、百度等厂商及局部初创公司已布局这一畛域。

在数据合规流通需要旺盛的环境下，隐衷计算技术倒退炽热，隐衷计算为实现平安合规的数据流通带来了可能。

目前隐衷计算次要分为 多方平安计算 和可信硬件 两大流派。其中多方平安计算基于密码学实践；可信硬件依赖对平安硬件的信赖。

此外，还有 联邦学习 、 共享学习 等通过多种技术手段均衡安全性和性能的隐衷爱护，也为跨企业机器学习和数据挖掘提供新的解决思路。

参考起源：中国信息通信研究院[大数据白皮书(2020 年)]；数据观(www.cbdio.com)

关于大数据:分析-BAT-互联网巨头在大数据方向布局及大数据未来发展趋势

前言

BAT 的大数据产业

阿里

腾讯

百度

大数据畛域剖析

1. 大数据科研

2. 大数据企业

大数据将来发展趋势

1. 以管制老本为次要理念

2. 自动化智能化需要紧迫

3. 图剖析需要旺盛

4. 隐衷计算技术热度回升