关于机器学习:数据预处理和特征选择

150次阅读

共计 4446 个字符,预计需要花费 12 分钟才能阅读完成。

背景介绍

联合网上一些相干材料,咱们整顿输入了这篇文章,本文阐明了数据的重要性以及数据在各个环节和畛域位置。更重要的是,这篇文章会详尽的解说数据预处理和特征选择的原理及办法细节。

数据是什么?

  • 通过观察、试验或计算得出的后果。例:数字、文字、图像、声音等。

数据分析是什么?

  • 把暗藏在数据背地的信息集中和提炼进去
  • 总结出所钻研对象的外在法则,帮忙管理者进行无效的判断和决策

数据在数据分析中的重要性

  • 数据分析即数据 + 剖析,也就是说数据为先,剖析为后。数据是剖析的根底,因而数据的品质、数据的相关度、数据的维度等会影响数据分析的后果。

数据分析流程图

数据预处理

什么是数据预处理?

在特色工程和日志前,检测和去除数据集中的噪声数据和无关数据,解决破绽数据,去除空白数据。

为什么要做数据预处理?

举例:

  1. 缺失值;职业 =””
  2. 误差或异样点;工资 =”-10″
  3. 蕴含矛盾;年龄 =42,”03/17/1997″

数据预处理的意义?

进步数据的品质,从而有助于进步后续学习过程的精度和性能

数据预处理的重要性

数据预处理很重要,下图通知你,到底多重要?

数据的特色决定了机器学习的下限,而模型和算法的利用只是让咱们迫近这个下限

特色解决的思维导图

数据荡涤

什么是数据荡涤?

删除原始数据集中的无关数据,反复数据,筛选掉与开掘主题无关的数据,解决缺失值,异样值。

造成数据缺失的起因

信息临时无奈获取;信息被脱漏;有些对象的某个或某些属性是不可用的,等等。

缺失的类型

齐全随机缺失;随机缺失,非随机缺失

解决缺失值的必要性

挽回失落的信息;确定性更加显著;失去牢靠的输入

常见的数据清理的形式

缺失值解决

  1. 删除元组
  2. 均值 / 中数值 / 众数插补
  3. 应用固定值
  4. 最近邻插补
  5. 回归办法
  6. 插值法

异样值解决

  1. 删除含有异样值的记录
  2. 视为缺失值
  3. 平均值修改
  4. 不解决

偏态散布

更加全面的理解数据分布,应用 mode、median、mean 三个指标来综合形容数据的散布。对于显著左偏或者右偏的数据来说,应用中位数去形容数据状况比平均数更正当,因为平均数会受极值的影响。

左偏阐明长尾在右边,右边有较多的极其数据

许多算法要求样本遵从正态分布

正态分布

正态分布

少数频数集中在地方地位,两端的频数散布大略对称

为什么将偏态数据转换为正态分布数据?

很多模型假如数据遵从正态分布

为什么正态分布在自然界中常见?

多个因素独立同散布并且能够叠加,那么叠加的后果就会靠近正态分布,这就是核心极限定理

核心极限定理

样本的平均值约等于总体的平均值

缺失值解决

①删除元组

②均值 / 中数值 / 众数插补

  • 空值是数值型或者空值的非数值型的;用均值补齐的问题;
  • 升高了变异性;
  • 弱化了协方差和相关性预计

③回归办法

  • 用模型的办法插补缺失值;
  • 用回归模型补齐的问题:过高估计模型的拟合和相关性预计;
  • 弱化了方差;

异样点检测

3α 法令;散点图或箱型图;

箱线图与四分位数

四分位数

  • 把所有数值由小到大排列并分为四等份,处于三个宰割点地位的得分就是四分位数。
  • 有小到大排列后第 25% 的数字成为 Q1
  • 由小到大排列后第 50% 的数字成为 Q2
  • 由小到大 排列第 75% 的数组成为 Q3
  • 四分位距(IQR)=Q3-Q1
  • 上限:Q1-1.5IQR
  • 下限:Q3+1.5IQR

异样值解决

  1. 删除含有异样值的记录
  • 显著看出是异样且数量较少
  1. 视为缺失值
  • 利用缺失值解决的办法进行解决
  1. 平均值修改
  • 平均值修改是一种信息损失小,简略高效的解决办法
  1. 不解决
  • 如果算法对异样值不敏感则能够不解决,但对异样值敏感,最好不要这样。

数据集成

什么是数据集成?

合并多个数据源中国的数据,寄存在一个统一的数据存储中

数据集成的分类

1、实体辨认

  • 同名异义
  • 异名同义
  • 单位不对立

举例:一个数据库中的 customer\_id 和另一个数据库中的 customer\_number;pay_type 的数据编码在一个数据库中能够是“H”和“S”,而在另一个数据库中是 1 和 2。

2、冗余属性辨认

如果一个属性能够由另一个或另一组属性“导出”,那么他就是冗余的

相干剖析测验:

数据变换

什么是数据变换?

将数据转换或对立成适宜于开掘的模式

数据变换波及到的内容:

  • 润滑:去掉数据中的乐音
  • 汇集:对数据进行汇总或汇集
  • 数据泛化:应用概念分层,用高层概念替换底层或“原始”数据
  • 规范化:将属性数据按比例缩放,使之落入一个小的特定区间
  • 属性结构:能够结构新的属性并增加到属性集中,以帮忙开掘过程。

数据变换蕴含了哪些办法?

  1. 简略函数变换
  2. 归一化

    1. 为什么做归一化?
    2. 归一化的意义?
    3. 归一化的施行办法?
    4. 如何归一化有异样值的数据?
  3. 间断属性离散化

    1. 无监督离散化
    2. 监督离散化
  4. 属性形成
  5. 小波变换

数据变换—归一化 / 标准化

间断属性离散化—等宽算法、等频算法

间断属性离散化—K-means 聚类算法

间断属性离散化—ChiMerge 算法

监督离散化

ChiMerge 是一种基于 x²的离散化办法,应用自底而上的策略,递归地找出最佳邻近区间,而后合并它们,造成较大的区间。

过程:

将数值属性 A 点每个不同值看作一个区间,对每个相邻区间进行 x²测验。

具备最小 x²值的相邻区间合并在一起,因为低 x²值外表它们具备类似的散布

数据规约

什么是数据规约?

  • 产生更小但放弃原数据完整性的新数据集

数据变换的意义?

  • 进步建模的准确性;缩短数据挖掘所的世界;升高存储数据的老本

数据规约的分类

属性规约

  1. 合并属性
  2. 逐渐向前抉择
  3. 逐渐向后删除
  4. 决策树演绎
  5. 主成分剖析

数据规约—维度规约

LDA—线性判别分析

LDA

LDA 是一种监督学习的降维技术,也是说它的数据集的每个样本是类别输入的。这点和 PCA 不同,PCA 是不思考样本类别输入的无监督降维技术。

思维:投影后类内方差最小,类间方差最大

数据规约—数值规约

  • 有参数——假如数据适宜于一些模型,预计模型参数,且仅贮存参数,并放弃贮存数据

1. 回归模型

y=wx+b

x 和 y 是数值数据库属性,系数 w 和 b 别离为直线的斜率和 Y 轴截距。系数通过最小二乘法求得,它最小化拆散数据的理论直线与直线之间的误差。

2. 对数线性模型

对数线性模型能够近似看作离散的多维概率分布。用三维对数线性模型举例:

无参数——直方图、聚类、抽样

特征选择

特色工程的概述

为什么做特征选择?

  1. 加重维度劫难问题
  2. 升高学习工作难度

特征选择的三个指标

  1. 进步模型的预测体现
  2. 进步更快且更高效的模型
  3. 提供生成数据中潜在过程的最佳的了解

做特征选择的准则?

  1. 特色是否发散
  2. 特色与指标的相关性

特色的分类

  1. 相干个性:是指与以后学习工作无关的特色;
  2. 无关个性:是指与以后学习工作无关的特色(该特色所提供的信息对于以后学习工作无用);例:对于学生问题而言,学号就是无关特色。
  3. 冗余特色:是指该特色所蕴含的信息能从其余特色推演过去;例:对于“面积”这个特色而言,能从“长”和“宽”得出,则它是冗余特色

特征选择 vs. 特色提前

共同点:两者都是降维的办法,目标雷同。

不同点:

  • 特征提取是通过属性间的关系,如组合不同的属性失去新的属性,这样就扭转了原来的特色空间
  • 特征选择是从原始特色数据集中抉择出子集,是一种蕴含的关系,没有扭转原来的特色空间

特征选择—Filter

Filter Methods

什么是过滤法?

依照发散性或者相关性对各个特色进行评分,设定阈值或者带抉择阈值的个数,抉择特色

1. 方差抉择法

  • 应用方差抉择法,先要计算各个特色的方差,而后依据阈值,抉择方差大于阈值的特色。
  • 当特征值都是离散型变量的时候这种办法能力用,如果是连续型变量,就须要将连续型变量离散化之后能力用

2. 相关系数抉择法

依据相关系数的大小断定两个变量之间的相关性的强弱,进而抉择相干的特色。个别罕用的是皮尔逊相关系数

3. 卡尔测验

统计样本的理论观测值与实践推断值之间的偏移水平,这个偏离水平决定了卡方值的大小

4. 互信息法

互信息,示意两个变量是否有关系,以及关系的强弱

残差和决定系数

特征选择—Wrapper—逐渐向前抉择

Wrapper Methods

什么是包装法?

  • 包装法理论是一种搜寻形式,将以后的特色组合作为带搜寻的汇合,从汇合中找出最优的特色组合而后返回后果。

逐渐向前抉择:

  • 变量被逐渐地合并进越来越大的子集中

步骤

  1. 从一个空模型开始
  2. 拟合 5 个简略的线性回归模型,搜寻出所有单个变量模型中最好的那一个
  3. 搜遍剩下的 4 个变量,找出哪个变量退出到现有模型中能够最大的改善残差平方和

特征选择—Wrapper—逐渐向后剔除

逐渐向后剔除:

所有变量的汇合一起开始,逐渐地剔除直到取得最优的一个

步骤:

  1. 开始时模型蕴含了所有的变量
  2. 移除 p -value 最大的变量
  3. 新的(p-1)个变量模型是 t,最大的 p -value 的变量被移除
  4. 反复下面的步骤直到进行条件被达到

个性抉择——Embedded

Embedded Methods

什么是 嵌入 法?

  • 先应用某些机器学习的算法和模型进行训练,失去各个特色的权值系数,依据叙述从大到小抉择特色。

嵌入 发与正则化

当样本特色很多,而样本数绝对较少时,上式很容易陷入过拟合。为了缓解过拟合问题,可对上式引入正则化项:

L1 正则化

L1 正则化是指权值向量中各个元素的绝对值之和

L2 正则化

L2 正则化是指权值向量中各个元素的平方和而后再求平方根

L1 正则化和 L2 正则化都有助于升高拟合危险,但前者还会带来一个额定的益处“它比后者更易取得“稠密”解,即它求得的 ω 会有更少的非零重量

总结

数据清理:格局标准化,异样数据分明,谬误纠正,反复数据的革除

数据集成:将扩散在不同起源的数据有机地整合在一起

数据变换:通过平滑汇集,数据概化,规范化等办法将数据转换成实用于数据挖掘的模式

数据规约:失去数据集的规约示意,它小得多,但依然靠近于放弃原数据的完整性,后果与规约前后果雷同或简直雷同

特征选择:进步模型的泛化能力,缩小过拟合;加强对特色和特征值之间的了解。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区,旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP、云服务治理平台 - 摩尔平台、Hours 算法等产品,并在短 工夫 内获得了一系列社区荣誉。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyFish.html

Github 地址:https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址:https://gitee.com/CloudWise/fly-fish

行业案例:https://www.bilibili.com/video/BV1z44y1n77Y/

局部大屏案例:

您能够增加小助手(xiaoyuerwie)退出开发者交换群,与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解 FlyFish 最新进展!

(本文局部材料 / 信息源于网络,如有侵权,请分割小助手 / 私信进行解决)

参考资料:

应用 sklearn 做单机特色工程 – jasonfreak – 博客园

参考资料 2

正文完
 0