关于大数据:Smartbi10步带你认识大数据和云计算

48次阅读

共计 5359 个字符,预计需要花费 14 分钟才能阅读完成。

麦粉们大家好啊~~Smartbi 间断几期分享的 Smartbi 行业案例,失去了大家的激情反馈,在此 Smartbi 向大家说声:谢谢了!你们的反对,是 Smartbi 后退的最大能源,Smartbi 肯定再接再厉,为大家带来更多的案例、更多的干货…

那么,本期 Smartbi 为大家带来什么干货呢?别急,且听 Smartbi 用深入浅出、通俗易懂的语言,分 10 步率领大家意识 “大数据”和“云计算” 这两个当下最风行的概念,保障大家有所播种,当前碰到相干的概念不会两眼一抹黑…是不是心动了呢?那就让咱们开始吧!

第一步:大数据

“大数据”这个概念是近几年开始火起来的,当初堪称是无处不在了。在理解什么是大数据之前,咱们先理解一下什么是传统数据?

传统数据就是 IT 业务零碎外面的数据,如客户资料、财务数据等。这些数据是结构化的,量也不是特地大,个别只是 TB 级。比照传统数据,还有一种叫“新数据”,是来源于社区网络、互联网等渠道,包含文本、图片、音频、视频等非结构化的数据。目前全世界 75% 以上都是非结构化数据,而且还始终出现爆炸性的增长。咱们看看上面的图就更好了解了:

大数据就是:结构化的传统数据 + 非结构化的新数据。

因此,大数据还具备以下特点,简称“4V”:

l Volume(大量):数据体量微小,从 TB 级别,跃升到 PB 级别;

l Variety(多样):数据类型繁多,有网络日志、视频、图片、地理位置信息等;

l Velocity(高速):处理速度快,可从各种类型的数据中疾速取得高价值的信息,这一点也是和传统的数据挖掘技术有着实质的不同;

l Value(价值):只有正当利用数据并对其进行正确、精确的剖析,将会带来很高的价值回报。

第二步:大数据组成

大数据系统由基础设施、平台和利用组成。比照咱们平时应用的电脑,基础设施就是电脑这台硬件,平台就是装在外面的操作系统,利用就是操作系统下面的各种应用程序。

大数据的利用形形色色,但总体上可分为“业务利用”和“数据分析”两大类。

前者包含 ERP、CRM 等业务零碎,后者指的是各种剖析利用,包含经营剖析、价值剖析、人流剖析等等。剖析零碎从业务零碎获取源数据,通过剖析后能够反哺业务零碎,对其进行赋能(注智),让其具备智慧。说到这里,大家是不是感觉有点相熟了?跟咱们的 BI 是不是有某些分割呢?没错了,“大数据平台”和“数据分析系统”加在一起就是 BI 的升级版啊!既然是升级版,它与传统 BI 有什么区别呢?请看上面就晓得啦。

l 老本更低廉

去 IOE,硬件采纳便宜的 X86,软件更多应用开源,节省成本

l 容灾性好

平台部署在 X86 集群上,机器出问题可随时切换

l 扩展性好

X86 集群可依据须要随时进行扩大,进步灵活性

l 解决效率高

当数据达到 TB 级别,解决效率显著进步

l 解决类型多

能够解决结构化、半结构化、非结构化数据

l 进一步开掘价值

解决的数据量大,类型多,因此可进一步开掘数据的价值。

是不是有很多降级的中央呢?为了反对这些降级,大数据系统须要具备哪些性能呢?这就波及到架构问题了,跟着 Smartbi 持续往下看吧。

第三步:大数据架构

咱们曾经晓得大数据系统由基础设施、平台和利用组成,咱们当初进一步细分,请看下图:

基础设施由通过局域网或互联网连贯的 X86 集群组成,为大数据平台提供最根本的硬件反对。

大数据平台由基础架构、数据处理和数据服务三局部组成

基础架构负责对基础设施进行系统管理,为数据处理提供分布式底层服务;数据处理负责数据的采集、存储、计算;数据服务负责将解决后的数据提供给下层利用应用。大数据利用是面向用户的各种利用零碎,包含业务利用和数据分析。大数据系统的总体架构就是这样子,是不是跟咱们平时见到的 BI 架构很像呢?通过这个表格比照咱们就更分明了:

上面咱们将围绕这个架构开展阐明。了解了这个架构,Smartbi 的目标也就达到啦。

第四步:虚拟化

基础设施提供计算、存储、网络三种能力,是大数据平台的根基。然而如何解决以下问题:

l 大量的机器如何治理

当集群的状态扭转,也即减少或者缩小一些机器的时候,难道要去批改平台的配置吗?

l 如何充分利用系统资源

当集群的能力只应用了一部分,而这个时候须要一部新的机器用来部署其它零碎,难道是从集群上拆下一部机器来提供吗?

l 如何解决弹性问题

当高峰期的时候,零碎可能须要 20 部机器,平时只须要 10 部。那么咱们是提供多少部适合呢?如果提供 20 部,平时闲暇下来的 10 部如何解决?

这些问题有一种解决办法:虚拟化。就是把集群作为一个整体进行治理,能够依据须要从某些机器中调配相干资源,疾速组成一部“新的机器”。例如能够用机器 A 的 CPU1/ 2 性能、1/ 3 的内存,和机器 B 的 1 / 5 硬盘组成。

当集群的状态扭转时,咱们只须要批改虚拟化软件的配置,缩小对平台的影响。当集群有多余的资源时,能够虚构出一些新的机器给其它零碎应用,充分利用了系统资源。

虚拟化的支流商业软件是 Vmware,开源的软件有 Xen、KVM 等。

第五步:云化

虚拟化尽管带来资源配置的灵活性,但也有显著的缺点。配置一部“新的机器”须要人工操作,配置十分麻烦,最多只能治理几百台电脑的规模,作为企业外部的利用是能够的。但对于提供公众服务的互联网公司来说,须要上万部电脑的规模,通过虚拟化的形式是行不通的。所以又有了新技术的呈现:云化,也即把基础设施作为一项服务提供。请看下图:

最早是亚马逊基于本身电商业务的倒退,传统的 IT 架构曾经满足不了需要,所以基于开源的虚拟化软件开发了 AWS(Amazon Web Service),能够反对超大规模的集群利用。在解决本人的业务需要后,亚马逊发现能够把这项技术作为一项独自的业务推向市场,这就是当初稳居寰球市场头把交椅的的亚马逊云服务。同样的背景,阿里巴巴也基于 Xen 推出了市场化的阿里云,现成曾经成为国内云市场的老大。由此咱们也晓得为什么云服务做得最早、最好的都是互联网公司了吧?因为他们有本身的业务在驱动。规模上万部的机器,以资源池(数据中心)的模式散布在不同的地区上(很多建设在广西、贵州、内蒙等欠发达省份,电费、人工比拟便宜,又能够促成当地待业),通过调度核心进行对立治理,这就是私有云平台。

在亚马逊发展商业化云服务的同时,美国另一家叫 Rackspace 的公司也推出 OpenStack 在跟亚马逊竞争。无奈竞争不过人家,最初决定和 NASA(美国国家航空航天局)单干,把 OpenStack 开源,一起成立了开源云平台。起初各家传统的 IT 巨头纷纷退出这个开源的社区,通过二次开发和包装后推出了本人的公有云平台,和自家的硬件或解决方案打包一起销售。

不论是私有云,还是公有云,都是实现了基础设施的工夫灵活性和空间灵活性,把基础设施作为一项服务提供,也即:Infranstracture as a Service(IaaS

第六步:Hadoop

大数据平台的基础架构采纳 Hadoop,包含 HDFS 和 MapReduce 两局部:

l HDFS 在集群上实现分布式文件系统,负责对文件的操作。(相似 windows 下的文件管理系统 NTFS)

l MapReduce 在集群上实现分布式计算和工作解决,负责将作业分解成多个工作,分派到多部机器一起执行,同时监控执行状况,保障每个工作都能顺利执行,所有工作完结后再将后果汇总。(相似多集体一起数图书馆的书,每个人算一个书架(Map),最初把所有后果加在一起(Reduce))

那么,如何把 Hadoop 装置到集群上面那么多机器上呢?每部机器的配置、操作系统都可能不一样。

解决办法就是采纳“容器“技术:先将 Hadoop 打包到一个关闭的容器中,再对立公布到各部机器上。容器可能依据机器理论环境做出相应的调整,保障 Hadoop 的顺利装置。(相似用对立规格的集装箱来运送货物)

容器的支流技术是开源的 Docker。不仅仅是 Hadoop 能够通过容器进行装置,所有的利用都能够应用。

当初曾经在集群下每部机器装置了 Hadoop,那么 Hadoop 是如何运行的呢?请看下图:

Hadoop 把集群下其中一个节点拿来当 Master,其它节点当 Slave。对于 HDFS 来说,Master 就是 NameNode,负责管理文件系统的命名空间和管制客户端拜访;Slave 就是 DataNode,负责管理存储的数据。对于 MapReduce 来说,Master 就是 JobTracker,负责调度形成一个作业的所有工作,这些工作散布在不同的 TaskTracker 上;Slave 就是 TaskTracker,负责执行由 JobTracker 指派的工作。

Hadoop 曾经衍生出很多不同的降级版本,目前利用最成熟、最宽泛的是 Spark。

第七步:数据处理

数据处理是对数据的采集、存储和计算。因为大数据有各种各样的利用,不同的利用,数据的品种、构造,数据的实时性要求都可能不同。所以要依据理论状况进行数据库选型,这是大数据平台设计的要害,将影响到整个平台的整体性能。不同的数据库类型能够进行混搭,同时采纳不同的 ETL 技术。

目前常见的各种数据库类型如下:

l 传统数据库

支流数据库有 Oracle、DB2、MySQL,次要利用于小规模利用零碎,或者为了利用已有的资源,同时升高系统升级的危险,采纳的 ETL 技术是 Datastage、Kettle 等。

l 内存数据库

支流数据库有 SQLite、HANA,次要利用于对实时性要求高,须要实时处理的数据,如实时指标展现,精准营销等,采纳的 ETL 技术是流解决技术 kafka。

l MPP 数据库

MPP 是指大规模并行处理,MPP 数据库反对 X86 集群,常见的有 Greanplum、Vertica 等,次要利用于大规模结构化数据分析,如信令剖析、DPI 剖析,个别采纳 Kettle 作为 ETL 工具。

l NoSQL 数据库

NoSQL 是指半结构化或非结构化数据库,支流的数据库有 MongoDB、HBase 和 HDFS 等,HBase 用来存储半结构化或构造很稠密的数据,HDFS 用来存储非结构化数据。HBase 和 HDFS 都不反对 SQL,须要应用 Hive 作为 SQL 接口执行一些简略的查问操作。NoSQL 数据库基于 Hadoop 平台,次要利用于大规模半 / 非结构化离线剖析,例如互联网数据分析、文档剖析等,个别采纳网络爬虫技术进行 ETL。

第八步:数据服务

通过解决后的数据,个别不提供给下层利用间接用 SQL 拜访,这一点与数据仓库不同。数据仓库把采集过去的数据通过解决后存储在汇总层,下层利用间接用 SQL 拜访。但大数据平台把解决后的数据进行封装和分类,为下层利用提供可灵便调用的数据服务接口,能够保证数据拜访的规范性和安全性。接口的承载形式有:文件、音讯、API、SDK、界面集成,其流程如下:

l 数据格式化

对原始数据进行格式化,过滤字段并进行排序。

l 数据封装

对格式化后的数据及其元数据进行封装,以实现对外统一、标准化的数据拜访接口。

l 数据分类

依据封装后的数据,按主题进行接口分类。

l 数据服务

下层利用可通过数据服务接口调用数据,实现数据的服务性能。

数据服务接口屏蔽掉大数据平台的所有细节,把平台作为一项服务提供给利用应用,这种形式称之为 Platform as a service(PaaS)。

在私有云提供商中,个别都会有对应的 PaaS 服务提供,如阿里云的 EDAS(企业级分布式应用服务)。

公有云是企业自建,对数据拜访的管制没那么严格。为了开发效率,利用通常能够通过 SQL 间接拜访数据。

第九步:大数据利用

后面 Smartbi 曾经为大家介绍了基础设施和大数据平台,也介绍了公有云和私有云的区别。对于大数据利用来说,公有云上的利用,就是咱们平时说的企业信息化零碎,只不过这些零碎是采纳大数据的架构。而私有云上的利用,指的是咱们平时应用的互联网服务,如微信、微博、支付宝等。然而,随着云服务市场的倒退,越来越多的传统 IT 厂商也通过私有云为公众提供服务,比方咱们相熟的 MicrosoftOffice 365。这种把软件作为服务提供的形式称之为:Software as a Service(SaaS)。

在国内市场,比拟常见的企业级 SaaS 服务有客户治理服务 Saleforce、团队协同服务 Google Apps 等等。国内市场的金蝶、微软、Oracle 也都提供多种 SaaS 产品和服务。咱们能够看一下 IDC 对 2017-2022 年中国私有云整体市场的预测(单位:百万美元):

从上表能够看出,整个云服务市场的年复合增长率达到了 41%,其中 PaaS 服务增长最快,达到了 55.7%。中国企业级 SaaS 市场份额寰球第二,将来五年仍旧出现快速增长态势,年复合增长率达到 35.7%。到了 2022 年,整个 SaaS 市场规模达到 400 亿人民币。

第十步:云计算

大家有没有发现,后面说了那么久,还没提到云计算呢?其实后面都是铺垫,当初就要给大家介绍云计算了。云计算就是一种 IT 架构,是一种 IT 资源的交付和应用模式。后面介绍的 IaaS、PaaS、SaaS 就是云计算架构下对不同资源的交付模式,别离将基础设施、平台、软件以服务的模式提供给用户应用。

到目前为止,Smartbi 曾经把相干的概念都介绍给大家了。咱们把后面的大数据架构图进一步细化,大家是否看得懂了呢?

如果大家看懂了,那 Smartbi 本次的介绍也算功德圆满了。如果还没看懂,请跳到第一步再看一遍,哈哈。。。。

正文完
 0