概述
- 机器学习,即从样本数据中寻找法则,建设模型对未知的数据进行观测。如辨认手写体数字,首先提供大量手写体数字图像(每张图像都通过人工标记了它是什么数字),咱们把这些图像作为训练数据,通过学习算法主动生成模型,依附模型辨认新的手写体数字
基本概念
- 咱们以买芒果作为例子:
(1)首先,咱们选取一些芒果,列出它们的特色(色彩、大小、形态、产地、品牌)及要预测的标签。标签能够是间断值(芒果甜度、成熟度的综合打分),也能够是离散值(好、坏两类标签)。这样一个同时标记好特色和标签的芒果叫做样本
(2)一组样本的汇合称为数据集,咱们通常将数据集分为两局部:训练集和测试集。训练集中的样本用来训练模型,失去模型;测试集中的样本用来测验训练失去样本的可靠性
- 学习过程:
咱们通常用一个???? 维向量????=[????1,????2,⋯,????????]T 示意一个芒果的所有特色形成的向量,称为特征向量,其中每一维示意一个特色;用标量???? 来示意芒果的标签。这里要留神的是,并不是所有的样本特色都是数值型,有的须要通过转换示意为特征向量
机器学习三要素
机器学习办法能够粗略的分为三个基本要素:模型、学习准则、优化算法
模型
模型就是一个可能形容 x、y 关系的实在映射函数或者实在条件概率分布,模型分为线性模型和非线性模型
- 线性模型的假如空间为一个参数化的线性函数族,即
????(????;????)=????????+????,
其中参数???? 蕴含了权重向量???? 和偏置????.
- 狭义的非线性模型能够写为多个非线性基函数????(????)的线性组合
????(????;????)=????????(????)+????,
其中????(????)=[????1(????),????2(????),⋯,????????(????)]T 为???? 个非线性基函数组成的向量,参数???? 蕴含了权重向量???? 和偏置????.
如果????(????)自身为可学习的基函数,比方
????(????)=ℎ(????????′(????)+????????),∀1≤????≤????,
其中ℎ(⋅)为非线性函数,????′(????)为另一组基函数,???????? 和???????? 为可学习的参数,则 ????(????;????)就等价于神经网络模型.
学习准则
一个好的模型应该每一个(x,y)在空间中的取值都与实在映射函数统一,为了形容模型的好坏,咱们引入冀望谬误来掂量:
损失函数
损失函数是一个非负实数函数,用于量化模型预测值和实在标签值间的差别
- 几种罕用的损失函数
危险最小化准则
- 一个好的模型,冀望谬误应该较小。然而因为咱们不可能晓得所有的数据分布,所以实际上无奈计算其冀望危险。咱们能计算的只能是教训谬误,即在训练集上的均匀损失:
因而咱们规定,使得教训谬误最小的模型,就是好的模型,这就是教训危险最小化准则
- 教训危险最小化准则带来的过拟合问题:依据大数定理,当训练集大小 |????| 趋向于无穷大时,教训危险就趋向于冀望危险.然而通常状况下,咱们无奈获取有限的训练样本,并且因为训练数据少、存在一些噪声数据,不能很好地反映全副数据的实在散布.这时,教训危险最小化准则很容易导致模型在训练集上错误率很低,然而在未知数据上错误率很高,这就是过拟合
为了解决过拟合问题,个别在教训危险最小化的根底上再引入参数的正则化来限度模型能力,使其不要适度地最小化教训危险。这种准则就是构造危险最小化准则:
- 与过拟合相同的概念是欠拟合,即模型在训练集上错误率比拟高,这个别是因为模型能力有余导致的(也可能是咱们正则化时适度限度模型能力)
总之,学习准则能够了解为从一个无限、有噪声的数据集中,尽可能的升高泛化谬误,建设一个可能更好地预测未知样本的模型
优化算法
- 确定了学习准则后,如何找到最优模型就是一个最优化问题。
- 在机器学习中,优化能够分为参数优化和超参数优化。模型 ????(????;????)中的???? 称为模型的参数,能够通过优化算法进行学习;除了可学习的参数???? 之外,还有一类参数是用来定义模型构造或优化策略的,这类参数叫作超参数
常见的超参数包含:聚类算法中的类别个数、梯度降落法中的步长、正则化项的系数、神经网络的层数、反对向量机中的核函数等.超参数的选取个别都是组合优化问题,很难通过优化算法来主动学习.因而,超参数优化是机器学习的一个经验性很强的技术,通常是依照人的教训设定,或者通过搜寻的办法对一组超参数组合进行一直试错调整.
- 几种优化算法:
机器学习的简略示例:线性回归
简略了解,线性回归就是拟合成一个一次函数
- 下边,介绍四种不同的参数估计办法:
偏差方差合成
在建模时,咱们须要在模型的拟合能力和复杂度之间衡量。拟合能力过强,复杂度较高,且易造成过拟合;拟合能力过低,复杂度尽管升高,但可能造成欠拟合。因而,咱们引入偏差 - 方差合成,以在模型的拟合水平和复杂度间获得较好的均衡
P53~55
机器学习算法的类型
机器学习算法的规范分类多样,依照函数类型,可分为线性类型和非线性类型;依照学习准则,分为统计办法和非统计办法。
一般来说,咱们依据训练样本以及反馈形式的不同,次要将算法分为以下几类:
(1)监督学习,其训练集中每个样本都有标签。依据标签类型的不同,咱们又能够把监督学习分为以下三种:
a. 回归问题。标签是间断值,输入的模型也是间断值
b. 分类问题。标签是离散的,由依据类别数量分为二决裂和多分类
c. 结构化学习。标签是结构化的对象,如序列、树、图等
(2)无监督学习。训练样本不含有标签,例如聚类、密度估计、特色学习、降维
(3)强化学习。通过交互来学习,电脑做出一个动作,环境给予即时或延时的处分。电脑在和环境的交互中一直学习并调整策略,来获得最大化的冀望总回报
值得注意的是,监督学习和无监督学习的区别在于训练集数据是否有标签,强化学习则不须要给出训练样本,是一种在线的学习机制
数据的特色示意
数据有文本、音频、图像、视频等多种类型,不同类型的数据,其原始特色的空间也不雷同.机器学习算法要求输出的样本特色是数学上可计算的,因而在机器学习之前咱们须要将这些不同类型的数据转换为向量示意。比方一张灰度图像(像素数量为????)的特色空间为[0,255]????,一个自然语言句子(长度为????)的特色空 间为 |????|????,其中???? 为词表汇合.
- 数据特色转换
(1)图像特色。图像中每个像素点的灰度值 + 直方图、宽高比、笔画数、纹理特色、边缘特色等额定特色,形成一个向量
(2)文本特色。一种办法是应用词袋模型,设训练汇合中的词都来自一个词表????,大小为 |????|,则每个样本能够示意为一个 |????| 维的向量????∈ℝ|????|.向量???? 中第???? 维的值示意词表中的第???? 个词是否在???? 中呈现.如果呈现,值为 1,否则为 0.
然而词袋模型仅仅将文本看做词的汇合,不思考词序信息,难以精准示意文本信息。因而咱们有了第二种办法:N 元特色,即每 N 个间断词形成一个根本单元,而后用词袋模型表示。
(3)示意学习。示意学习就是让机器主动的学习出无效的特色,从而防止了间接应用原始特色对机器学习能力的高要求,以及人工特征提取带来的人力物力节约
传统的特色学习
传统的特色学习,即通过人为的设计一些准则,而后依据这些准则选取无效的特色。特色学习次要有两种办法,特征选择和特色抽取
特征选择
特征选择,选取原始特色汇合的一个子集,使得基于这个子集训练的模型准确率最高。实际上就是保留无效特色,移除冗余特色
- 子集搜寻。应用贪婪策略:由空集合开始,每一轮增加该轮最优的特色(前向搜索);或者从原始特色汇合开始,每次删除最冗余的特色(反向搜寻)
子集搜寻又分为过滤式办法和包裹式办法:
特色抽取
特征选择和特色抽取能够在不失落原始特色信息的前提下,去掉噪声信息,缩小特色数量。也就进而缩小了特征向量的维度,所以特征选择和特征提取也常常称为降维
深度学习
传统的机器学习中,特征提取和预测模型的学习是拆散的,机器学习模型仅仅指后边依据提取到的特色学习模型。
而深度学习则将特色学习和模型的预测学习有机对立到一个模型中,从而防止了两者准则的不一致性
深度学习办法的难点在于如何评估示意学习对最终零碎输入后果的奉献或影响,即贡献度调配问题.目前比拟无效的模型是神经网络,行将最初的输入层作为预测学习,其余层作为示意学习.
评估指标
机器学习中的驰名实践和定理
PAC 学习实践
在机器学习中,通常用教训或屡次试验来抉择适合的模型、训练样本数据等,然而这样往往不太牢靠,老本也较高。
为此咱们提出了计算学习实践,来剖析问题难度、计算模型能力,领导机器学习模型和算法的设计。计算学习实践中,最根底的实践就是可能近似正确(PAC)学习实践
- 机器学习中,一个要害的问题是冀望谬误和教训谬误间的差别,称为泛化谬误。泛化谬误决定了机器学习模型是否精准的预测未知数据
因为咱们不可能晓得所有数据的实在散布,因而冀望学习到一个冀望谬误为 0 的函数是不切实际的。所以,咱们升高建模的冀望,只要求可能有肯定概率学习到一个近似正确的假如,这就是 PAC 学习。
- PAC 学习能够分为两局部了解:
(1)近似正确(Approximately Correct):要求泛化谬误小于某个值,来保障模型能够较好的预测到未知数据
(2)可能(Probably):机器学习有‘可能’(肯定概率)学习到这样一个近似正确的假如,不是肯定能学习到
- 在机器学习中,模型越简单,模型泛化能力越差,达到雷同泛化能力须要的样本数量越多。当然,咱们也能够通过正则化来限度模型的复杂度
没有收费午餐定理
任何算法都有局限性,不存在一种算法适合于所有的畛域和工作
奥卡姆剃刀原理:若无必要,勿增实体
简略的模型泛化能力更好,因而有两个性能相近的模型时,咱们会抉择更为简略的模型。这也就是在机器学习的学习准则中,咱们常常引入参数正则化,来限度模型能力,防止过拟合
在机器学习中,咱们在保障模型性能相近的状况下,要尽可能的是模型简略,这就是奥卡姆剃刀原理
丑小鸭定理:丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大(这里的丑小鸭指的是白天鹅的幼雏,而不是俊俏的小鸭子)
世界上不存在相似性的主观规范,所有相似性的规范都是主观的。
如果从体型大小或外貌的角度来看,丑小鸭和白天鹅的区别大于两只白天鹅的区别;然而如果从基因的角度来看,丑小鸭与它父母的差异要小于它父母和其余白天鹅之间的差异.
演绎偏置
在机器学习中,很多学习算法常常会对学习的问题做一些假如,这些假如就 称为演绎偏置.
比方在最近邻分类器中,咱们 会假如在特色空间中,一个小的部分区域中的大部分样本同属一类.在奢侈贝叶 斯分类器中,咱们会假如每个特色的条件概率是相互独立的.
演绎偏置在贝叶斯学习中也常常称为先验.
总结
- 机器学习算法尽管品种繁多,然而基本要素就三个:模型、学习准则、优化算法。大部分机器学习算法,实际上就是这三个基本要素的不同组合。值得注意的是,雷同的模型也能够有不同的学习算法,比方线性分类模型有感知器、Logistic 回归和反对向量机,它们之间的差别在于应用了不同的学习准则和优化算法
- 此外,机器学习的一个重要内容是示意学习。传统的示意学习办法包含特征选择和特色抽取