关于大数据:Smartbi10步带你认识大数据和云计算

麦粉们大家好啊~~Smartbi 间断几期分享的 Smartbi 行业案例，失去了大家的激情反馈，在此 Smartbi 向大家说声：谢谢了！你们的反对，是 Smartbi 后退的最大能源，Smartbi 肯定再接再厉，为大家带来更多的案例、更多的干货…

那么，本期 Smartbi 为大家带来什么干货呢？别急，且听 Smartbi 用深入浅出、通俗易懂的语言，分 10 步率领大家意识 “大数据”和“云计算” 这两个当下最风行的概念，保障大家有所播种，当前碰到相干的概念不会两眼一抹黑…是不是心动了呢？那就让咱们开始吧！

“大数据”这个概念是近几年开始火起来的，当初堪称是无处不在了。在理解什么是大数据之前，咱们先理解一下什么是传统数据？

传统数据就是 IT 业务零碎外面的数据，如客户资料、财务数据等。这些数据是结构化的，量也不是特地大，个别只是 TB 级。比照传统数据，还有一种叫“新数据”，是来源于社区网络、互联网等渠道，包含文本、图片、音频、视频等非结构化的数据。目前全世界 75% 以上都是非结构化数据，而且还始终出现爆炸性的增长。咱们看看上面的图就更好了解了：

大数据就是：结构化的传统数据 + 非结构化的新数据。

因此，大数据还具备以下特点，简称“4V”：

l Volume（大量）：数据体量微小，从 TB 级别，跃升到 PB 级别；

l Variety（多样）：数据类型繁多，有网络日志、视频、图片、地理位置信息等；

l Velocity（高速）：处理速度快，可从各种类型的数据中疾速取得高价值的信息，这一点也是和传统的数据挖掘技术有着实质的不同；

l Value（价值）：只有正当利用数据并对其进行正确、精确的剖析，将会带来很高的价值回报。

大数据系统由基础设施、平台和利用组成。比照咱们平时应用的电脑，基础设施就是电脑这台硬件，平台就是装在外面的操作系统，利用就是操作系统下面的各种应用程序。

大数据的利用形形色色，但总体上可分为“业务利用”和“数据分析”两大类。

前者包含 ERP、CRM 等业务零碎，后者指的是各种剖析利用，包含经营剖析、价值剖析、人流剖析等等。剖析零碎从业务零碎获取源数据，通过剖析后能够反哺业务零碎，对其进行赋能（注智），让其具备智慧。说到这里，大家是不是感觉有点相熟了？跟咱们的 BI 是不是有某些分割呢？没错了，“大数据平台”和“数据分析系统”加在一起就是 BI 的升级版啊！既然是升级版，它与传统 BI 有什么区别呢？请看上面就晓得啦。

l 老本更低廉

去 IOE，硬件采纳便宜的 X86，软件更多应用开源，节省成本

l 容灾性好

平台部署在 X86 集群上，机器出问题可随时切换

l 扩展性好

X86 集群可依据须要随时进行扩大，进步灵活性

l 解决效率高

当数据达到 TB 级别，解决效率显著进步

l 解决类型多

能够解决结构化、半结构化、非结构化数据

l 进一步开掘价值

解决的数据量大，类型多，因此可进一步开掘数据的价值。

是不是有很多降级的中央呢？为了反对这些降级，大数据系统须要具备哪些性能呢？这就波及到架构问题了，跟着 Smartbi 持续往下看吧。

咱们曾经晓得大数据系统由基础设施、平台和利用组成，咱们当初进一步细分，请看下图：

基础设施由通过局域网或互联网连贯的 X86 集群组成，为大数据平台提供最根本的硬件反对。

大数据平台由基础架构、数据处理和数据服务三局部组成：

基础架构负责对基础设施进行系统管理，为数据处理提供分布式底层服务；数据处理负责数据的采集、存储、计算；数据服务负责将解决后的数据提供给下层利用应用。大数据利用是面向用户的各种利用零碎，包含业务利用和数据分析。大数据系统的总体架构就是这样子，是不是跟咱们平时见到的 BI 架构很像呢？通过这个表格比照咱们就更分明了：

上面咱们将围绕这个架构开展阐明。了解了这个架构，Smartbi 的目标也就达到啦。

基础设施提供计算、存储、网络三种能力，是大数据平台的根基。然而如何解决以下问题：

l 大量的机器如何治理

当集群的状态扭转，也即减少或者缩小一些机器的时候，难道要去批改平台的配置吗？

l 如何充分利用系统资源

当集群的能力只应用了一部分，而这个时候须要一部新的机器用来部署其它零碎，难道是从集群上拆下一部机器来提供吗？

l 如何解决弹性问题

当高峰期的时候，零碎可能须要 20 部机器，平时只须要 10 部。那么咱们是提供多少部适合呢？如果提供 20 部，平时闲暇下来的 10 部如何解决？

这些问题有一种解决办法：虚拟化。就是把集群作为一个整体进行治理，能够依据须要从某些机器中调配相干资源，疾速组成一部“新的机器”。例如能够用机器 A 的 CPU1/ 2 性能、1/ 3 的内存，和机器 B 的 1 / 5 硬盘组成。

当集群的状态扭转时，咱们只须要批改虚拟化软件的配置，缩小对平台的影响。当集群有多余的资源时，能够虚构出一些新的机器给其它零碎应用，充分利用了系统资源。

虚拟化的支流商业软件是 Vmware，开源的软件有 Xen、KVM 等。

虚拟化尽管带来资源配置的灵活性，但也有显著的缺点。配置一部“新的机器”须要人工操作，配置十分麻烦，最多只能治理几百台电脑的规模，作为企业外部的利用是能够的。但对于提供公众服务的互联网公司来说，须要上万部电脑的规模，通过虚拟化的形式是行不通的。所以又有了新技术的呈现：云化，也即把基础设施作为一项服务提供。请看下图：

最早是亚马逊基于本身电商业务的倒退，传统的 IT 架构曾经满足不了需要，所以基于开源的虚拟化软件开发了 AWS（Amazon Web Service），能够反对超大规模的集群利用。在解决本人的业务需要后，亚马逊发现能够把这项技术作为一项独自的业务推向市场，这就是当初稳居寰球市场头把交椅的的亚马逊云服务。同样的背景，阿里巴巴也基于 Xen 推出了市场化的阿里云，现成曾经成为国内云市场的老大。由此咱们也晓得为什么云服务做得最早、最好的都是互联网公司了吧？因为他们有本身的业务在驱动。规模上万部的机器，以资源池（数据中心）的模式散布在不同的地区上（很多建设在广西、贵州、内蒙等欠发达省份，电费、人工比拟便宜，又能够促成当地待业），通过调度核心进行对立治理，这就是私有云平台。

在亚马逊发展商业化云服务的同时，美国另一家叫 Rackspace 的公司也推出 OpenStack 在跟亚马逊竞争。无奈竞争不过人家，最初决定和 NASA（美国国家航空航天局）单干，把 OpenStack 开源，一起成立了开源云平台。起初各家传统的 IT 巨头纷纷退出这个开源的社区，通过二次开发和包装后推出了本人的公有云平台，和自家的硬件或解决方案打包一起销售。

不论是私有云，还是公有云，都是实现了基础设施的工夫灵活性和空间灵活性，把基础设施作为一项服务提供，也即：Infranstracture as a Service（IaaS）

大数据平台的基础架构采纳 Hadoop，包含 HDFS 和 MapReduce 两局部：

l HDFS 在集群上实现分布式文件系统，负责对文件的操作。（相似 windows 下的文件管理系统 NTFS）

l MapReduce 在集群上实现分布式计算和工作解决，负责将作业分解成多个工作，分派到多部机器一起执行，同时监控执行状况，保障每个工作都能顺利执行，所有工作完结后再将后果汇总。（相似多集体一起数图书馆的书，每个人算一个书架（Map），最初把所有后果加在一起（Reduce））

那么，如何把 Hadoop 装置到集群上面那么多机器上呢？每部机器的配置、操作系统都可能不一样。

解决办法就是采纳“容器“技术：先将 Hadoop 打包到一个关闭的容器中，再对立公布到各部机器上。容器可能依据机器理论环境做出相应的调整，保障 Hadoop 的顺利装置。（相似用对立规格的集装箱来运送货物）

容器的支流技术是开源的 Docker。不仅仅是 Hadoop 能够通过容器进行装置，所有的利用都能够应用。

当初曾经在集群下每部机器装置了 Hadoop，那么 Hadoop 是如何运行的呢？请看下图：

Hadoop 把集群下其中一个节点拿来当 Master，其它节点当 Slave。对于 HDFS 来说，Master 就是 NameNode，负责管理文件系统的命名空间和管制客户端拜访；Slave 就是 DataNode，负责管理存储的数据。对于 MapReduce 来说，Master 就是 JobTracker，负责调度形成一个作业的所有工作，这些工作散布在不同的 TaskTracker 上；Slave 就是 TaskTracker，负责执行由 JobTracker 指派的工作。

Hadoop 曾经衍生出很多不同的降级版本，目前利用最成熟、最宽泛的是 Spark。

数据处理是对数据的采集、存储和计算。因为大数据有各种各样的利用，不同的利用，数据的品种、构造，数据的实时性要求都可能不同。所以要依据理论状况进行数据库选型，这是大数据平台设计的要害，将影响到整个平台的整体性能。不同的数据库类型能够进行混搭，同时采纳不同的 ETL 技术。

目前常见的各种数据库类型如下：

l 传统数据库

支流数据库有 Oracle、DB2、MySQL，次要利用于小规模利用零碎，或者为了利用已有的资源，同时升高系统升级的危险，采纳的 ETL 技术是 Datastage、Kettle 等。

l 内存数据库

支流数据库有 SQLite、HANA，次要利用于对实时性要求高，须要实时处理的数据，如实时指标展现，精准营销等，采纳的 ETL 技术是流解决技术 kafka。

l MPP 数据库

MPP 是指大规模并行处理，MPP 数据库反对 X86 集群，常见的有 Greanplum、Vertica 等，次要利用于大规模结构化数据分析，如信令剖析、DPI 剖析，个别采纳 Kettle 作为 ETL 工具。

l NoSQL 数据库

NoSQL 是指半结构化或非结构化数据库，支流的数据库有 MongoDB、HBase 和 HDFS 等，HBase 用来存储半结构化或构造很稠密的数据，HDFS 用来存储非结构化数据。HBase 和 HDFS 都不反对 SQL，须要应用 Hive 作为 SQL 接口执行一些简略的查问操作。NoSQL 数据库基于 Hadoop 平台，次要利用于大规模半 / 非结构化离线剖析，例如互联网数据分析、文档剖析等，个别采纳网络爬虫技术进行 ETL。

通过解决后的数据，个别不提供给下层利用间接用 SQL 拜访，这一点与数据仓库不同。数据仓库把采集过去的数据通过解决后存储在汇总层，下层利用间接用 SQL 拜访。但大数据平台把解决后的数据进行封装和分类，为下层利用提供可灵便调用的数据服务接口，能够保证数据拜访的规范性和安全性。接口的承载形式有：文件、音讯、API、SDK、界面集成，其流程如下：

l 数据格式化

对原始数据进行格式化，过滤字段并进行排序。

l 数据封装

对格式化后的数据及其元数据进行封装，以实现对外统一、标准化的数据拜访接口。

l 数据分类

依据封装后的数据，按主题进行接口分类。

l 数据服务

下层利用可通过数据服务接口调用数据，实现数据的服务性能。

数据服务接口屏蔽掉大数据平台的所有细节，把平台作为一项服务提供给利用应用，这种形式称之为 Platform as a service（PaaS）。

在私有云提供商中，个别都会有对应的 PaaS 服务提供，如阿里云的 EDAS（企业级分布式应用服务）。

公有云是企业自建，对数据拜访的管制没那么严格。为了开发效率，利用通常能够通过 SQL 间接拜访数据。

后面 Smartbi 曾经为大家介绍了基础设施和大数据平台，也介绍了公有云和私有云的区别。对于大数据利用来说，公有云上的利用，就是咱们平时说的企业信息化零碎，只不过这些零碎是采纳大数据的架构。而私有云上的利用，指的是咱们平时应用的互联网服务，如微信、微博、支付宝等。然而，随着云服务市场的倒退，越来越多的传统 IT 厂商也通过私有云为公众提供服务，比方咱们相熟的 MicrosoftOffice 365。这种把软件作为服务提供的形式称之为：Software as a Service(SaaS)。

在国内市场，比拟常见的企业级 SaaS 服务有客户治理服务 Saleforce、团队协同服务 Google Apps 等等。国内市场的金蝶、微软、Oracle 也都提供多种 SaaS 产品和服务。咱们能够看一下 IDC 对 2017-2022 年中国私有云整体市场的预测（单位：百万美元）：

从上表能够看出，整个云服务市场的年复合增长率达到了 41%，其中 PaaS 服务增长最快，达到了 55.7%。中国企业级 SaaS 市场份额寰球第二，将来五年仍旧出现快速增长态势，年复合增长率达到 35.7%。到了 2022 年，整个 SaaS 市场规模达到 400 亿人民币。

大家有没有发现，后面说了那么久，还没提到云计算呢？其实后面都是铺垫，当初就要给大家介绍云计算了。云计算就是一种 IT 架构，是一种 IT 资源的交付和应用模式。后面介绍的 IaaS、PaaS、SaaS 就是云计算架构下对不同资源的交付模式，别离将基础设施、平台、软件以服务的模式提供给用户应用。

到目前为止，Smartbi 曾经把相干的概念都介绍给大家了。咱们把后面的大数据架构图进一步细化，大家是否看得懂了呢？

如果大家看懂了，那 Smartbi 本次的介绍也算功德圆满了。如果还没看懂，请跳到第一步再看一遍，哈哈。。。。

关于大数据:Smartbi10步带你认识大数据和云计算

第一步：大数据

第二步：大数据组成

第三步：大数据架构

第四步：虚拟化

第五步：云化

第六步：Hadoop

第七步：数据处理

第八步：数据服务

第九步：大数据利用

第十步：云计算