统计学习在迷信、金融和工业的许多畛域施展着关键作用。以下是一些学习问题的例子:

■ 预测因心脏病发生住院的患者是否会再次心脏病发生。该预测将基于该患者的人口统计学、饮食和临床测量。

■ 依据公司业绩指标和经济数据，预测将来6个月的股票价格。

■ 从数字化图像中辨认手写邮政编码中的数字。

■ 依据糖尿病患者血液的红外吸收光谱，预计该患者血液中的葡萄糖含量。

■ 依据临床和人口统计学变量，确定前列腺癌的危险因素。

学习迷信在统计、数据挖掘和人工智能畛域施展着关键作用，与工程和其余学科畛域穿插。

这本书是对于从数据中学习的。在一个典型的场景中，咱们有一个后果测量，通常是定量的(如股票价格)或分类的(如心脏病发生/无心脏病发生)，咱们心愿基于一组特色(如饮食和临床测量)来预测。咱们有一个训练数据集，在其中咱们察看后果和特色对一组对象(如人)的测量。应用这些数据，咱们建设了一个预测模型，或学习者，这将使咱们可能预测新的看不见的物体的后果。一个好的学习者可能精确预测这样的后果。

下面的例子形容了所谓的监督学习问题。它被称为“监督的”，因为后果变量的存在领导了学习过程。在无监督学习问题中，咱们只察看特色，没有后果的度量。咱们的工作是形容数据是如何组织或汇集的。咱们把这本书的大部分工夫用于监督学习；无监督问题在文献中倒退较少，是第14章的重点。

以下是本书探讨的一些实在学习问题的例子。

例1：垃圾邮件

这个例子的数据由来自4601封电子邮件的信息组成，这项钻研试图预测这封电子邮件是失常邮件还是垃圾邮件。指标是设计一个主动垃圾邮件检测器，它能够在用户邮箱梗塞之前过滤掉垃圾邮件。对于所有4601电子邮件音讯，能够晓得实在后果是(即电子邮件类型)失常邮件还是垃圾邮件，以及电子邮件音讯中最常见的57个单词和标点符号的绝对频率。这是一个监督学习问题，其后果是类变量失常邮件/垃圾邮件。也叫分类问题。

表1.1列出了显示垃圾邮件和失常邮件之间最大均匀差别的单词和字符。

表1.1. 电子邮件中与指定单词或字符雷同的单词或字符的均匀百分比。咱们抉择了显示垃圾邮件和失常邮件之间最大差别的单词和字符。
咱们的学习办法必须决定应用哪些个性以及如何应用:例如，咱们能够应用一个规定，如下

if(%george < 0.6)&(&you>1.5)    then  垃圾邮件
                                else  失常邮件.

另一种模式的规定可能是:

if(0.2·&you - 0.3·%george) > 0    then  垃圾邮件
                                  else  失常邮件.

对于这个问题，不是所有的误差都相等；咱们心愿防止过滤掉失常的电子邮件，而让垃圾邮件通过是不可取的，但结果不那么重大。咱们在书中探讨了解决这个学习问题的许多不同办法。

例2：前列腺癌症

图 1.11 中显示的此示例的数据来自 Stamey 等人的一项钻研。 (1989) 在 97 名行将承受根治性前列腺切除术的男性中查看了前列腺特异性抗原 (PSA) 程度与许多临床指标之间的相关性。

图1.1. 前列腺癌数据的散点图矩阵。第一行顺次显示了对每个预测值的响应。svi和gleason这两个预测因子是相对的。

咱们的指标是通过一系列测量值来预测前列腺特异性抗原(lpsa)的对数，这些测量包含肿瘤体积的对数(lcavol)、前列腺分量对数(lweight)、年龄、良性前列腺增生量的对数(lbph)、精囊侵袭(svi)、荚膜浸透的对数(lcp)、Gleason评分(Gleason)以及Gleason评分4或5(pgg45)的百分比。图1.1是变量的散点图矩阵。一些测量值与lpsa的相关性是显著的，然而一个好的预测模型很难通过肉眼来构建。
这是一个监督学习问题，被称为回归问题，因为后果测量是定量的。

例3：手写数字辨认

这个例子中的数据来自美国邮政信封上的手写邮政编码。每张图片都是一个五位数字的邮政编码的一部分，切分成一个独自的数字。这些图像是$16×16$的8-bit灰度图，每个像素的亮度范畴从$0$到$255$。一些示例图像如图1.2所示。

图1.2. 美国邮政信封中的手写数字示例。
图像已被归一化为具备大致相同的大小和方向。工作是从$16 × 16$像素强度矩阵中疾速精确地预测每个图像的身份$(0,1, . . . ,9)$。如果它足够精确，则生成的算法将用作信封主动分类程序的一部分。这是一个分类问题，须要将错误率放弃在非常低的程度以防止邮件误传。为了实现这种低错误率，能够将一些对象调配到“不确定”类别，并手动分类。

例4：DNA表白微阵列

DNA代表脱氧核糖核酸，是形成人类染色体的根本物质。DNA微阵列通过测量基因的信使核糖核酸(mRNA)的数量来测量基因在细胞中的表白。微阵列被认为是生物学中的一项突破性技术，它有助于从单个细胞样本中同时对数千个基因进行定量钻研。

以下是DNA微阵列的工作原理。几千个基因的核苷酸序列印在载玻片上。指标样品和参考样品用红色和绿色染料标记，每一个都与载玻片上的DNA混合。通过荧光透视，测量每个位点的核糖核酸混合的对数(红/绿)强度。后果是几千个数字，通常范畴从$-6$到$6$，测量每个基因在指标样品中绝对于参考样品的表白程度。正值示意目标值比参考值高，负值示意目标值比参考值低。

基因表白数据集收集了一系列基因微阵列试验的表白值，每列代表一个试验。因而，有几千行(一行代表单个基因)，几十列(一列代表单个样本):在图1.3的特定例子中，有6830个基因(行)和64个样本(列)，只管为了分明起见，只显示了一个随机样本的$100$行。该图将数据集显示为热图，范畴从绿色(负)到红色(正)。样本是来自不同患者的64个癌症肿瘤。

图1.3. DNA微阵列数据:6830个基因(行)和64个样本(列)的表白矩阵，用于人类肿瘤数据。只显示了随机样本的100行。显示为一个热图，范畴从亮绿色(负，表白有余)到亮红色(正，表白适度)。缺失值为灰色。行和列以随机抉择的程序显示。
       这里的挑战是了解基因和样本是如何组织的。典型问题包含以下内容:

       (a)  就跨基因表白谱而言，哪些样本彼此最类似？

       (b)  就样本间的表白谱而言，哪些基因彼此最类似？

       (c)  对于某些癌症样本，某些基因是否体现出十分高(或低)的表白？

       咱们能够将这项工作视为一个回归问题，有两个分类预测变量——基因和样本——响应变量是表白程度。然而，将其视为无监督学习 问题可能更有用。例如，对于下面的问题(a)，咱们把样本看成是$6830$维空间中的点，咱们心愿以某种形式将它们汇集在一起。

关于机器学习:1-绪论

例1：垃圾邮件

例2：前列腺癌症

例3：手写数字辨认

例4：DNA表白微阵列

数据集及其他资源文件

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:1-绪论

例1：垃圾邮件

例2：前列腺癌症

例3：手写数字辨认

例4：DNA表白微阵列

数据集及其他资源文件

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复