关于大数据:大数据Big-Data

72次阅读

共计 5736 个字符,预计需要花费 15 分钟才能阅读完成。

大数据 -Big Data

作者 | WenasWei

一 大数据

大数据 (Big Data) 也称为海量数据(Massivee), 是随着计算机技术及互联网技术的高速倒退而产生的数据景象,2013 年也称为大数据元年。标记着寰球正式步入了大数据时代。大数据指无奈在肯定工夫范畴内用惯例软件工具进行捕获、治理和解决的数据汇合,是须要新解决模式能力具备更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的 5V 特点(IBM 提出):

  • Volume(大量)
  • Velocity(高速)
  • Variety(多样)
  • Value(低价值密度)
  • Veracity(真实性)。

二 大数据的定义与意义

2.1 数据

大数据技术的战略意义不在于把握宏大的数据信息,而在于对这些含有意义的数据进行专业化解决。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的要害,在于进步对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无奈用单台的计算机进行解决,必须采纳分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依靠云计算的分布式解决、分布式数据库和云存储、虚拟化技术。

大数据须要非凡的技术,以无效地解决大量的容忍通过工夫内的数据。实用于大数据的技术,包含大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩大的存储系统。

最小的根本单位是 bit,按程序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

依照进率 1024(2 的十次方)来计算:

1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

2.2 价值

有人把数据比喻为蕴藏能量的煤矿。煤炭依照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的开掘老本又不一样。与此相似,大数据并不在“大”,而在于“有用”。价值含量、开掘老本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是博得竞争的要害。

大数据的价值体现在以下几个方面:

  • (1)对大量消费者提供产品或服务的企业能够利用大数据进行精准营销;
  • (2)做小而美模式的中小微企业能够利用大数据做服务转型;
  • (3)面临互联网压力之下必须转型的传统企业须要与时俱进充分利用大数据的价值。

在这个疾速倒退的智能硬件时代,困扰利用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和老本之间找到那个奥妙的平衡点。企业组织利用相干数据和剖析能够帮忙它们降低成本、提高效率、开发新产品、做出更理智的业务决策等等。例如,通过联合大数据和高性能的剖析,上面这些对企业无益的状况都可能会产生:

  • (1)及时解析故障、问题和缺点的本源,每年可能为企业节俭数十亿美元。
  • (2)为成千上万的快递车辆布局实时交通路线,规避拥挤。
  • (3)剖析所有 SKU1,以利润最大化为指标来定价和清理库存。
  • (4)依据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
  • (5)从大量客户中疾速辨认出金牌客户。
  • (6)应用点击流剖析和数据挖掘来躲避欺诈行为。

三 大数据的特色与构造

3.1 大数据的特色

(1)容量(Volume)

数据的大小决定所思考的数据的价值和潜在的信息

(2)品种(Variety)

数据类型的多样性

(3)速度(Velocity)

指取得数据的速度

(4)可变性(Variability)

障碍了解决和无效地治理数据的过程

(5)真实性(Veracity)

数据的品质

(6)复杂性(Complexity)

数据量微小,起源多渠道

(7)价值(value)

正当使用大数据,以低成本发明高价值

3.2 大数据的构造

大数据包含结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的次要局部。据 IDC 的调查报告显示:企业中 80% 的数据都是非结构化数据,这些数据每年都按指数增长 60%。

大数据也能够细化数据类型划分为四种: 结构化、半结构化、准结构化和非结构化。

想要零碎的认知大数据,必须要全面而粗疏的合成它,着手从三个层面来开展:

  • 第一层面是实践: 实践是认知的必经路径,也是被宽泛认同和流传的基线。在这里从大数据的特色定义了解行业对大数据的整体描述和定性;从对大数据价值的探讨来深刻解析大数据的宝贵所在;洞悉大数据的发展趋势;从大数据隐衷这个特地而重要的视角扫视人和数据之间的短暂博弈。
  • 第二层面是技术: 技术是大数据价值体现的伎俩和后退的基石。在这里别离从云计算、分布式解决技术、存储技术和感知技术的倒退来阐明大数据从采集、解决、存储到造成后果的整个过程。
  • 第三层面是实际: 实际是大数据的最终价值体现。在这里别离从互联网的大数据,政府的大数据,企业的大数据和集体的大数据四个方面来描述大数据曾经展示的美妙现象及行将实现的蓝图。

四 大数据处理中的计算技术

1、多解决技术

由单核 CPU 到多核 CPU 解决大量并行数据的场合越来越多,工作负载被平均地调配到全副处理器上,极大进步了整个零碎的解决能力。

2、并行计算

并行计算或称平行计算是绝对于串行计算来说的。它是一种一次可执行多个指令的算法,目标是进步计算速度,及通过扩充问题求解规模,解决大型而简单的计算问题。所谓并行计算可分为工夫上的并行和空间上的并行。

工夫上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。

3、高并发计算

并发计算和并行计算既有分割,又有着实质的区别。

二者的分割就是都是为实现计算工作而产生的相干技术,在多核计算中,经常将并行计算和并发计算联合在一起,取得更高的计算性能。

二者也有着实质的区别。

  • (1)并行计算是将一个较大的计算工作合成为多个较小的计算子工作,而后同时解决这些子工作。归根结底,并行计算是在实现一项计算工作。
  • (2)并发计算由多个程序不依赖或者部分程序依赖的计算工作组成,能够同时执行多个不同的计算工作,无论以何种程序执行或者计算,最终后果都是一样的。另外,并发计算是疾速实现计算工作的关键所在。
4、离线批处理计算

离线计算,通常也称为“批处理”,示意那些离线批量、延时较高的静态数据处理过程。
离线计算实用于实时性要求不高的场景,比方离线报表、数据分析等,延时个别在分钟级或小时级,少数场景是定时周期性执行一个 Job 工作,工作周期能够小到分钟级,比方每五分钟做一次统计分析,大到月级别、年级别,比方每月执行一次工作。

离线批处理计算的特点如下:

  • (1)计算的数据量微小。
  • (2)数据保留的工夫比拟长。
  • (3)数据在计算之前曾经成型,不再发生变化。
  • (4)可能查问计算结果。
  • (5)计算过程耗费的工夫比拟长。

离线批处理的典型技术就是 Hadoop

5、在线实时计算

实时计算,通常也称为“实时流计算”、“流式计算”,示意那些实时或者低延时的流数据处理过程。

实时计算通常利用在实时性要求高的场景,比方实时 ETL、实时监控等,延时个别都在毫秒级甚至更低。

在线实时计算的特点如下:

  • (1)每次计算的数据量不大。
  • (2)缓存两头后果数据。
  • (3)单个简单计算工作会被合成为多个简略的计算子工作。
  • (4)数据产生后便会被剖析和统计。
  • (5)可能查问计算结果。
  • (6)单个计算过程耗费的工夫比拟短。

在线实时计算典型的技术就是 Storm, Spark Streaming 与 Flink

目前比拟风行的实时框架有 Spark Streaming 与 Flink。其中,Spark Streaming 属于微批处理,是一种把流当作一种批的设计思维,具备十分高的吞吐量但延时也较高,这使得 Streaming 的场景也失去了肯定的限度;Flink 则是事件驱动的流解决引擎,是一种把批当作一种无限的流的设计思维,具备高吞吐,低延时,高性能的特点

五 现状与发展趋势

大数据是信息技术倒退的必然产物,更是信息化过程的新阶段,其倒退推动了数字经济的造成与凋敝。

以后,在大数据利用的实际中,描述性、预测性剖析利用多,决策指导性等更深层次剖析利用偏少。一般而言,人们做出决策的流程通常包含:认知现状、预测将来和抉择策略这三个根本步骤。这些步骤也对应了上述大数据分析利用的三个不同类型。不同类型的利用意味着人类和计算机在决策流程中不同的分工和合作。例如:第一档次的描述性剖析中,计算机仅负责将与现状相干的信息和常识展示给人类专家,而对将来态势的判断及对最优策略的抉择依然由人类专家实现。利用档次越深,计算机承当的工作越多、越简单,效率晋升也越大,价值也越大。

信息化已经验了两次高速倒退的浪潮,始于上世纪 80 年代,随集体计算机大规模遍及利用所带来的以单机利用为次要特色的数字化(信息化 1.0),及始于上世纪 90 年代中期,随互联网大规模商用过程所推动的以联网利用为次要特色的网络化(信息化 2.0)。以后,咱们正在进入以数据的深度开掘和交融利用为次要特色的智能化阶段(信息化 3.0)。在“人机物”三元交融的大背景下,以“万物均需互联、所有皆可编程”为指标,数字化、网络化和智能化呈交融倒退新态势。

在信息化倒退历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定根底,实现数据资源的获取和积攒;网络化构建平台,促成数据资源的流通和汇聚;智能化展示能力,通过多源数据的交融剖析出现信息利用的类人智能,帮忙人类更好地认知复杂事物和解决问题。

发展趋势:

  • 趋势一:数据的资源化
  • 趋势二:与云计算的深度联合
  • 趋势三:迷信实践的冲破
  • 趋势四:数据迷信和数据联盟的成立
  • 趋势五:数据泄露泛滥
  • 趋势六:数据管理成为外围竞争力
  • 趋势七:数据品质是 BI(商业智能)胜利的要害

在信息化倒退历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定根底,实现数据资源的获取和积攒;网络化构建平台,促成数据资源的流通和汇聚;智能化展示能力,通过多源数据的交融剖析出现信息利用的类人智能,帮忙人类更好地认知复杂事物和解决问题。

5.1 常见大数据利用有哪些

(1)购物营销

当咱们关上淘宝,京东等购物 APP 时,总是会发现,这些 APP 比咱们本人还懂本人,可能未卜先知地晓得咱们最近须要什么。

  • 篮球迷在湖人赢了较量的时候关上淘宝,会发现詹姆斯的球衣就在首页;
  • 一个怀孕的妈妈,关上京东,发现进口的奶粉曾经在号召她购买;
  • 一个常常听神曲的大妈,广场舞音响的举荐总在眼前。

这就是商家通过手机浏览的数据分析,晓得咱们近期的需要,之后精准地向咱们进行采购。

(2)交通出行

现在百度地图、高德地图曾经成了咱们出行必不可少的工具。没了地图,很多时候咱们将举步维艰。有了地图,即便在九曲回肠的简单路线中,也能够顺利的到达咱们想去的一个网红美食店。

手机地图可能做到精准的导航和实时的路况预测得益于大数据的剖析。

  • 一是地图公司有本人数据采集车,后期采集了海量的数据存储在数据库中。
  • 二是每一个应用地图的用户,都共享了本人的地位,奉献了本人的数据。通过对同一时间段同一路段用户的应用状况进行分享,地图很容易就能得悉哪里堵车,哪里畅通,提前告知使用者。
(3)政务解决

大数据在助力政府的政务解决方面同样施展着重要的作用。近年来精准扶贫是各级政府的首要工程,扶贫如何做到精准,考验着政府的执政能力。

精准扶贫首先要做到的就是精准,贫困户是不是真正的贫困户,这在过往是一件很难解决的难题。下级政府只有依附上级政府的统计上报进行拨款,于是关系户成了贫困户,真正贫苦的人却难以失去实质性的帮忙。

现如今有了大数据的加持,政府通过建档立卡,通过网络数据分析,对每一个贫困户进行核实。家里老人的就医记录,子女的工资水平,养殖等副业的支出等等都将进行评估,以确保精准扶贫落实到位。

电信欺骗无孔不入,但当电信欺骗遇上大数据,欺骗分子也将插翅难逃。现在利用大数据分析,欺骗短信,欺骗网站很容易被辨认拦挡。通过剖析欺骗分子的“伪基站”地址,登录网址等信息也能很快锁定欺骗分子的藏身之处。

(4)信用体系

俗话说民无信不立,国无信不强。可见信用对于集体,对于国家都有十分重要的意义。但如何辨认一个人是否有信用,却不是一件容易的事。
在熟人社会里,咱们能够通过一个人过往的体现,言行来判断他的信用。但在陌生人社会里,想要断定一个人是否有信用就很难了。这也影响了整个社会的运行,例如信用零碎不欠缺,集体去银行贷款很难,网络购物也难以倒退。

但现在有了大数据,这些难题都迎刃而解了。例如支付宝的芝麻积分,就是通过剖析用户的学历、贷款、购物行为、交友特色、履约历史等等数据来赋予用户对应的分数,示意用户的信用等级,同时将特定的特权凋谢给对应等级的用户。

当初支付宝、微信等信用数据都已并入央行主导的国民信用体系里,成为国家队。中国也正式建设了本人的信用体系,真正实现了有信用走遍天下都不怕,无信用则举步维艰。

5.2 大数据这柄双刃剑

20 世纪最重要的资源是石油,谁把握了石油,谁就统治了世界。21 世纪最重要的资产则是数据,谁能在数据这座金矿中挖出黄金,谁就能把握话语权,造福社会,创造财富; 用户成为了数据的消费者,也成为了数据的生产者,互利互惠,然而也会衍生出一下集体数据隐衷问题等等,比方会产生大数据杀熟的状况,关键在于数据的拥有者。

<font color = DarkOrange size =3> 参考文档: </font>

  • [1] 梅宏. 中国人大网: http://www.npc.gov.cn/npc/c30… ,2019-10-30.
  • [2] 百度百科: https://baike.baidu.com/item/…
  • [3] 冰河. 海量数据处理与大数据技术实站 [M]. 第 1 版. 北京: 北京大学出版社,2020-09

  1. SKU: 库存量单位, stock keeping unit ↩

正文完
 0