关于大数据:大数据预处理方法来看看你知道几个

52次阅读

共计 1887 个字符,预计需要花费 5 分钟才能阅读完成。

大数据蕴含微小价值,引起了社会各界的高度关注。大数据的起源多种多样,从事实世界中采集的数据大体上都是不残缺、不统一的脏数据,无奈间接进行数据挖掘和剖析,或剖析开掘的后果差强人意。为了进步数据分析开掘的品质,须要对数据进行预处理。
数据预处理办法次要包含数据荡涤、数据集成、数据转换和数据消减。

1 . 数据荡涤

事实世界的数据经常是不齐全的、含噪声的、不统一的。数据荡涤过程包含缺失数据处理、噪声数据处理,以及不统一数据处理。
对于缺失的数据,能够采纳疏忽该条记录、手动补充缺失值、利用默认值填补缺失值、利用均值填补缺失值、利用最可能的值填补缺失值等办法解决。
对于噪声数据,可采纳 Bin 办法、聚类分析办法、人机联合检测办法、回归办法来解决。
对于不统一的数据,能够利用它们与内部的关联,手动解决这类问题。

2 . 数据集成

大数据处理经常波及数据集成操作,行将来自多个数据源的数据,如数据库、数据立方、一般文件等,联合在一起并造成一个对立的数据汇合,以便为数据处理工作的顺利完成提供残缺的数据根底。
在数据集成过程中,须要思考解决以下几个问题。

(1)模式集成问题。

模式集成问题指如何使来自多个数据源的事实世界的实体互相匹配,这其中波及实体辨认问题。
例如,如何确定一个数据库中的“custom_id”与另一个数据库中的“custome_number”是否示意同一实体。

(2)冗余问题

冗余问题是数据集成中常常产生的另一个问题。若一个属性能够从其余属性中推演出来,则这个属性就是冗余属性。
例如,一个顾客数据表中的均匀月支出属性就是冗余属性,显然它能够依据月支出属性计算出来。此外,属性命名的不统一也会导致集成后的数据集呈现数据冗余问题。

(3)数据值冲突检测与打消问题

数据值冲突检测与打消是数据集成中的另一个问题。在事实世界实体中,来自不同数据源的属性值或者不同。产生这种问题的起因可能是示意、比例尺度,或编码的差别等。
例如,分量属性在一个零碎中采纳公制,而在另一个零碎中却采纳英制;价格属性在不同地点采纳不同的货币单位。这些语义的差别为数据集成带来许多问题。

3 . 数据转换

数据转换就是将数据进行转换或归并,从而形成一个适宜数据处理的形容模式。罕用的转换策略如下。

(1)规格化解决

规格化解决就是将一个属性取值范畴投射到一个特定范畴之内,以打消数值型属性因大小不一而造成开掘后果的偏差,经常用于神经网络、基于间隔计算的最近邻分类和聚类开掘的数据预处理。对于神经网络,采纳规格化后的数据不仅有助于确保学习后果的正确性,而且也会帮忙进步学习的效率。对于基于间隔计算的开掘,规格化办法能够帮忙打消因属性取值范畴不同而影响开掘后果的公正性。

(2)属性结构解决

属性结构解决就是依据已有属性集结构新的属性,以帮忙数据处理过程。属性构造方法能够利用已有属性集结构出新的属性,并将其退出现有属性汇合中以开掘更深层次的模式常识,进步开掘后果准确性。

(3)数据离散化解决

数据离散化解决是将数值属性的原始值用区间标签或概念标签替换的过程,它能够将间断属性值离散化。间断属性离散化的本质是将间断属性值转换成多数无限的区间,从而无效地进步数据挖掘工作的计算效率。

(4)数据泛化解决

数据泛化解决就是用更形象(更高层次)的概念来取代低层次或数据层的数据对象,它广泛应用于标称数据的转换。例如,街道属性能够泛化到更高层次的概念,如城市、国家;数值型属性(如年龄属性),能够映射到更高层次的概念,如青年、中年和老年。

4. 数据消减

对大规模数据进行简单的数据分析通常须要消耗大量的工夫,这时就须要应用数据消减技术了。数据消减技术的次要目标是从原有微小数据集中取得一个精简的数据集,并使这一精简数据集放弃原有数据集的完整性。这样在精简数据集上进行数据挖掘就会提高效率,并且可能保障开掘进去的后果与应用原有数据集所取得的后果基本相同。
数据消减的次要策略有以下几种。
(1)数据聚合(Data Aggregation),如结构数据立方(数据仓库操作)。
(2)维数消减(Dimension Reduction),次要用于检测和打消无关、弱相干或冗余的属性或维(数据仓库中属性),如通过相干剖析打消多余属性。
(3)数据压缩(Data Compression),利用编码技术压缩数据集的大小。
(4)数据块消减(Numerosity Reduction),利用更简略的数据表达形式,如参数模型、非参数模型(聚类、采样、直方图等),来取代原有的数据。此外,利用基于概念树的泛化(Generalization)也能够实现对数据规模的消减。
以上内容摘自《大数据采集与解决》一书。

正文完
 0