什么是大数据?大数据有什么特点?大数据与传统的数据有什么关系?大数据和我们有什么关系?虽然很多书籍上直接说明了大数据的概念和特点,但是根据个人的体会,如果我们先了解数据的概念和特点,那么我们将会更加容易理解大数据。
关于数据的几个问题
什么是数据?狭义上讲数据就是数值,也就是我们通过观察、实验或计算得出的结果;从广义上讲,数据的含义更加广阔,也可以是文字、图像、声音等。当前我们所说的数据一般是指广义上的数据。
数据有什么特点?数据的种类繁多(语言、文字、数值、图像影音等),数据质量也参差不齐真假难辨,数据存储介质各异(口头相传、纸张书籍、数码磁盘),简单的总结数据的特点就是一下几个字:多、杂、乱。
数据有什么作用?数据的本身最主要作用是用于记录事物及其发展,人们可以根据这些记录的数据对事物进行相应的分析,得到相关的规律和结果(如根据实验数据得到相应的计算公式),并根据得到的规律和结果对现有或者未来的事物做出相应的决策行动。
在这里还是要推荐下我自己建的大数据学习交流群:251956502,群里都是学大数据开发的,如果你正在学习大数据,小编欢迎你加入, 大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
大数据的由来
大数据概念的的兴起也就是最近不到 10 年的时间,我们在了解了数据的几个基本概念之后,我们再来看一下大数据出现的背景。
关于数据的起源,早在远古时代人们就已经在石头、树木上记载相应的数据了,再到后来人们用竹简、棉帛等记载和传输数据,在这一阶段数据的记录和传播都是非常有限的;到后来纸张的出现和印刷术的发明,数据的记录和传播有了第一次长足的进步,但是此时的数据量仍旧是相当的小,传播速度也是较为缓慢,传播范围相对狭窄,人们对数据的分析和使用十分有限;直到了计算机和磁盘等存储介质的出现,人们记录数据和计算分析数据的能力有了质的飞跃,随着互联网的出现和通信技术的不断提高,数据的产生和传播速度以及传播范围急速提升,数据呈现爆发式的增长,人们几乎可以实时的了解世界上发生的所有重大事件,至此人们进入所谓的大数据时代。
大数据的基本概念
大数据和传统数据相比有什么异同呢?仅仅是数据量的增加吗?我们应对大数据的方法和应对传统数据的方法一样吗?大数据与我们的生活有什么直接的关系吗?
大数据和传统数据有什么异同呢?现在较为认可的大数据的特点是关于大数据“4V”的说法,也就是大数据与传统数据的异同点,即数据量大、数据类型繁多、数据处理速度快、数据的价值密度较低。
数据量 (Volume)
数据类型 (Variety)
处理方式 (Velocity)
数据价值 (Value)
传统数据
数据量较小,增长速度较慢
数据类型单一,以数字与文字为主
人工计算推导,单机处理,时效性不高
价值密度较高,存储的基本都是有用信息
大数据
数据量较大,数据量层指数型增加
数据类型丰富,影音数据的比例较大
分布式处理,时效性较高
价值密度较低,需要从大量数据中挖掘价值
那我们应该用什么方法去应对这些数据呢?根据大数据和传统数据的特点,我们在处理这些海量数据的时候思维上应该有一些改变,在《大数据时代:生活工作与思维的大变革》一书中指出,我们在应对大数据的时候应该有一下 3 中思维的改变:全量而非抽样,效率而非精确,相关而非因果。
全量而非抽样,在以前数据存储和计算能力的限制下,在数据分析中通常采用抽样的方法,通过对部分数据进行分析得到相应的结论进而推广到整个数据集中。在大数据时代中,数据的存储和计算不在是瓶颈,运用整个数据集进行全域的数据分析快速地得到相应的结果已经成为可能。
效率而非精确,在过去的抽样分析中,必须确保样本分析的精确性才能在全域数据中进行推广,以免数据分析结果的误差会在全域数据中扩大,这样导致数据的分析验证较为繁琐且效率低下。在大数据时代中,直接对全域数据进行分析,分析结果的误差直接基于所有的数据,在可接受误差范围内直接使用分析结果即可,不用担心分析误差的扩散。
相关而非因果,在过去的数据分析中,分析的目的往往是了解事物发生背后的原理,但是在大数据时代数据的因果关系不在那么重要,人们关注的往往是事情将如何发展而不是数据为什么这样发展,这样事物之间的相关性就显得更加的重要。