关于机器学习:数据预处理和特征选择

联合网上一些相干材料，咱们整顿输入了这篇文章，本文阐明了数据的重要性以及数据在各个环节和畛域位置。更重要的是，这篇文章会详尽的解说数据预处理和特征选择的原理及办法细节。

数据是什么？

通过观察、试验或计算得出的后果。例：数字、文字、图像、声音等。

数据分析是什么？

把暗藏在数据背地的信息集中和提炼进去
总结出所钻研对象的外在法则，帮忙管理者进行无效的判断和决策

数据在数据分析中的重要性

数据分析即数据 + 剖析，也就是说数据为先，剖析为后。数据是剖析的根底，因而数据的品质、数据的相关度、数据的维度等会影响数据分析的后果。

数据分析流程图

什么是数据预处理？

在特色工程和日志前，检测和去除数据集中的噪声数据和无关数据，解决破绽数据，去除空白数据。

为什么要做数据预处理？

举例：

缺失值；职业 =””
误差或异样点；工资 =”-10″
蕴含矛盾；年龄 =42,”03/17/1997″

数据预处理的意义？

进步数据的品质，从而有助于进步后续学习过程的精度和性能

数据预处理的重要性

数据预处理很重要，下图通知你，到底多重要？

数据的特色决定了机器学习的下限，而模型和算法的利用只是让咱们迫近这个下限

特色解决的思维导图

什么是数据荡涤？

删除原始数据集中的无关数据，反复数据，筛选掉与开掘主题无关的数据，解决缺失值，异样值。

造成数据缺失的起因

信息临时无奈获取；信息被脱漏；有些对象的某个或某些属性是不可用的，等等。

缺失的类型

齐全随机缺失；随机缺失，非随机缺失

解决缺失值的必要性

挽回失落的信息；确定性更加显著；失去牢靠的输入

缺失值解决

删除元组
均值 / 中数值 / 众数插补
应用固定值
最近邻插补
回归办法
插值法

异样值解决

删除含有异样值的记录
视为缺失值
平均值修改
不解决

偏态散布

更加全面的理解数据分布，应用 mode、median、mean 三个指标来综合形容数据的散布。对于显著左偏或者右偏的数据来说，应用中位数去形容数据状况比平均数更正当，因为平均数会受极值的影响。

左偏阐明长尾在右边，右边有较多的极其数据

许多算法要求样本遵从正态分布

正态分布

正态分布

少数频数集中在地方地位，两端的频数散布大略对称

为什么将偏态数据转换为正态分布数据？

很多模型假如数据遵从正态分布

为什么正态分布在自然界中常见？

多个因素独立同散布并且能够叠加，那么叠加的后果就会靠近正态分布，这就是核心极限定理

核心极限定理

样本的平均值约等于总体的平均值

缺失值解决

①删除元组

②均值 / 中数值 / 众数插补

空值是数值型或者空值的非数值型的；用均值补齐的问题；
升高了变异性；
弱化了协方差和相关性预计

③回归办法

用模型的办法插补缺失值；
用回归模型补齐的问题：过高估计模型的拟合和相关性预计；
弱化了方差；

异样点检测

3α 法令；散点图或箱型图；

箱线图与四分位数

四分位数

把所有数值由小到大排列并分为四等份，处于三个宰割点地位的得分就是四分位数。
有小到大排列后第 25% 的数字成为 Q1
由小到大排列后第 50% 的数字成为 Q2
由小到大排列第 75% 的数组成为 Q3
四分位距（IQR）=Q3-Q1
上限：Q1-1.5IQR
下限：Q3+1.5IQR

异样值解决

删除含有异样值的记录

显著看出是异样且数量较少

视为缺失值

利用缺失值解决的办法进行解决

平均值修改

平均值修改是一种信息损失小，简略高效的解决办法

不解决

如果算法对异样值不敏感则能够不解决，但对异样值敏感，最好不要这样。

什么是数据集成？

合并多个数据源中国的数据，寄存在一个统一的数据存储中

1、实体辨认

同名异义
异名同义
单位不对立

举例：一个数据库中的 customer\_id 和另一个数据库中的 customer\_number；pay_type 的数据编码在一个数据库中能够是“H”和“S”，而在另一个数据库中是 1 和 2。

2、冗余属性辨认

如果一个属性能够由另一个或另一组属性“导出”，那么他就是冗余的

相干剖析测验：

什么是数据变换？

将数据转换或对立成适宜于开掘的模式

数据变换波及到的内容：

润滑：去掉数据中的乐音
汇集：对数据进行汇总或汇集
数据泛化：应用概念分层，用高层概念替换底层或“原始”数据
规范化：将属性数据按比例缩放，使之落入一个小的特定区间
属性结构：能够结构新的属性并增加到属性集中，以帮忙开掘过程。

简略函数变换
归一化
1. 为什么做归一化？
2. 归一化的意义？
3. 归一化的施行办法？
4. 如何归一化有异样值的数据？
间断属性离散化
1. 无监督离散化
2. 监督离散化
属性形成
小波变换

监督离散化

ChiMerge 是一种基于 x²的离散化办法，应用自底而上的策略，递归地找出最佳邻近区间，而后合并它们，造成较大的区间。

过程：

将数值属性 A 点每个不同值看作一个区间，对每个相邻区间进行 x²测验。

具备最小 x²值的相邻区间合并在一起，因为低 x²值外表它们具备类似的散布

什么是数据规约？

产生更小但放弃原数据完整性的新数据集

数据变换的意义？

进步建模的准确性；缩短数据挖掘所的世界；升高存储数据的老本

属性规约

合并属性
逐渐向前抉择
逐渐向后删除
决策树演绎
主成分剖析

LDA

LDA 是一种监督学习的降维技术，也是说它的数据集的每个样本是类别输入的。这点和 PCA 不同，PCA 是不思考样本类别输入的无监督降维技术。

思维：投影后类内方差最小，类间方差最大

有参数——假如数据适宜于一些模型，预计模型参数，且仅贮存参数，并放弃贮存数据

1. 回归模型

y=wx+b

x 和 y 是数值数据库属性，系数 w 和 b 别离为直线的斜率和 Y 轴截距。系数通过最小二乘法求得，它最小化拆散数据的理论直线与直线之间的误差。

2. 对数线性模型

对数线性模型能够近似看作离散的多维概率分布。用三维对数线性模型举例：

无参数——直方图、聚类、抽样

为什么做特征选择？

加重维度劫难问题
升高学习工作难度

特征选择的三个指标

进步模型的预测体现
进步更快且更高效的模型
提供生成数据中潜在过程的最佳的了解

做特征选择的准则？

特色是否发散
特色与指标的相关性

特色的分类

相干个性：是指与以后学习工作无关的特色；
无关个性：是指与以后学习工作无关的特色（该特色所提供的信息对于以后学习工作无用）；例：对于学生问题而言，学号就是无关特色。
冗余特色：是指该特色所蕴含的信息能从其余特色推演过去；例：对于“面积”这个特色而言，能从“长”和“宽”得出，则它是冗余特色

共同点：两者都是降维的办法，目标雷同。

不同点：

特征提取是通过属性间的关系，如组合不同的属性失去新的属性，这样就扭转了原来的特色空间
特征选择是从原始特色数据集中抉择出子集，是一种蕴含的关系，没有扭转原来的特色空间

Filter Methods

什么是过滤法？

依照发散性或者相关性对各个特色进行评分，设定阈值或者带抉择阈值的个数，抉择特色

1. 方差抉择法

应用方差抉择法，先要计算各个特色的方差，而后依据阈值，抉择方差大于阈值的特色。
当特征值都是离散型变量的时候这种办法能力用，如果是连续型变量，就须要将连续型变量离散化之后能力用

2. 相关系数抉择法

依据相关系数的大小断定两个变量之间的相关性的强弱，进而抉择相干的特色。个别罕用的是皮尔逊相关系数

3. 卡尔测验

统计样本的理论观测值与实践推断值之间的偏移水平，这个偏离水平决定了卡方值的大小

4. 互信息法

互信息，示意两个变量是否有关系，以及关系的强弱

Wrapper Methods

什么是包装法？

包装法理论是一种搜寻形式，将以后的特色组合作为带搜寻的汇合，从汇合中找出最优的特色组合而后返回后果。

逐渐向前抉择：

变量被逐渐地合并进越来越大的子集中

步骤

从一个空模型开始
拟合 5 个简略的线性回归模型，搜寻出所有单个变量模型中最好的那一个
搜遍剩下的 4 个变量，找出哪个变量退出到现有模型中能够最大的改善残差平方和

逐渐向后剔除：

所有变量的汇合一起开始，逐渐地剔除直到取得最优的一个

步骤：

开始时模型蕴含了所有的变量
移除 p -value 最大的变量
新的（p-1）个变量模型是 t，最大的 p -value 的变量被移除
反复下面的步骤直到进行条件被达到

Embedded Methods

什么是嵌入法？

先应用某些机器学习的算法和模型进行训练，失去各个特色的权值系数，依据叙述从大到小抉择特色。

嵌入 发与正则化

当样本特色很多，而样本数绝对较少时，上式很容易陷入过拟合。为了缓解过拟合问题，可对上式引入正则化项：

L1 正则化

L1 正则化是指权值向量中各个元素的绝对值之和

L2 正则化

L2 正则化是指权值向量中各个元素的平方和而后再求平方根

L1 正则化和 L2 正则化都有助于升高拟合危险，但前者还会带来一个额定的益处“它比后者更易取得“稠密”解，即它求得的 ω 会有更少的非零重量

数据清理：格局标准化，异样数据分明，谬误纠正，反复数据的革除

数据集成：将扩散在不同起源的数据有机地整合在一起

数据变换：通过平滑汇集，数据概化，规范化等办法将数据转换成实用于数据挖掘的模式

数据规约：失去数据集的规约示意，它小得多，但依然靠近于放弃原数据的完整性，后果与规约前后果雷同或简直雷同

特征选择：进步模型的泛化能力，缩小过拟合；加强对特色和特征值之间的了解。

近年来，在 AIOps 畛域疾速倒退的背景下，IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此，云智慧在 2021 年 8 月公布了 AIOps 社区，旨在树起一面开源旗号，为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区，独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后开源了数据可视化编排平台 -FlyFish、运维治理平台 OMP、云服务治理平台 - 摩尔平台、Hours 算法等产品，并在短工夫内获得了一系列社区荣誉。

可视化编排平台 -FlyFish：

我的项目介绍：https://www.cloudwise.ai/flyFish.html

Github 地址：https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址：https://gitee.com/CloudWise/fly-fish

行业案例：https://www.bilibili.com/video/BV1z44y1n77Y/

局部大屏案例：

您能够增加小助手（xiaoyuerwie）退出开发者交换群，与业内大咖进行 1V1 交换！

也可通过小助手获取云智慧 AIOps 资讯，理解 FlyFish 最新进展！

（本文局部材料 / 信息源于网络，如有侵权，请分割小助手 / 私信进行解决）

参考资料：

应用 sklearn 做单机特色工程 – jasonfreak – 博客园

参考资料 2

关于机器学习:数据预处理和特征选择

背景介绍

数据预处理

数据荡涤

常见的数据清理的形式

数据集成

数据集成的分类

数据变换

数据变换蕴含了哪些办法？

数据变换—归一化 / 标准化

间断属性离散化—等宽算法、等频算法

间断属性离散化—K-means 聚类算法

间断属性离散化—ChiMerge 算法

数据规约

数据规约的分类

数据规约—维度规约

LDA—线性判别分析

数据规约—数值规约

特征选择

特色工程的概述

特征选择 vs. 特色提前

特征选择—Filter

残差和决定系数

特征选择—Wrapper—逐渐向前抉择

特征选择—Wrapper—逐渐向后剔除

个性抉择——Embedded

总结

写在最初

Just My Socks（注册教程内含优惠码）

关于机器学习:数据预处理和特征选择

背景介绍

数据预处理

数据荡涤

常见的数据清理的形式

数据集成

数据集成的分类

数据变换

数据变换蕴含了哪些办法？

数据变换—归一化 / 标准化

间断属性离散化—等宽算法、等频算法

间断属性离散化—K-means 聚类算法

间断属性离散化—ChiMerge 算法

数据规约

数据规约的分类

数据规约—维度规约

LDA—线性判别分析

数据规约—数值规约

特征选择

特色工程的概述

特征选择 vs. 特色提前

特征选择—Filter

残差和决定系数

特征选择—Wrapper—逐渐向前抉择

特征选择—Wrapper—逐渐向后剔除

个性抉择——Embedded

总结

写在最初

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）