共计 2825 个字符,预计需要花费 8 分钟才能阅读完成。
统计学习 在迷信、金融和工业的许多畛域施展着关键作用。以下是一些学习问题的例子:
■ 预测因心脏病发生住院的患者是否会再次心脏病发生。该预测将基于该患者的人口统计学、饮食和临床测量。
■ 依据公司业绩指标和经济数据,预测将来 6 个月的股票价格。
■ 从数字化图像中辨认手写邮政编码中的数字。
■ 依据糖尿病患者血液的红外吸收光谱,预计该患者血液中的葡萄糖含量。
■ 依据临床和人口统计学变量,确定前列腺癌的危险因素。
学习迷信在统计、数据挖掘和人工智能畛域施展着关键作用,与工程和其余学科畛域穿插。
这本书是对于从数据中学习的。在一个典型的场景中,咱们有一个后果测量,通常是定量的 (如股票价格) 或分类的 (如心脏病发生 / 无心脏病发生),咱们心愿基于一组特色(如饮食和临床测量) 来预测。咱们有一个训练数据集,在其中咱们察看后果和特色对一组对象 (如人) 的测量。应用这些数据,咱们建设了一个预测模型,或学习者,这将使咱们可能预测新的看不见的物体的后果。一个好的学习者可能精确预测这样的后果。
下面的例子形容了所谓的监督学习问题。它被称为“监督的”,因为后果变量的存在领导了学习过程。在无监督学习问题中,咱们只察看特色,没有后果的度量。咱们的工作是形容数据是如何组织或汇集的。咱们把这本书的大部分工夫用于监督学习;无监督问题在文献中倒退较少,是第 14 章的重点。
以下是本书探讨的一些实在学习问题的例子。
例 1:垃圾邮件
这个例子的数据由来自 4601 封电子邮件的信息组成,这项钻研试图预测这封电子邮件是失常邮件还是垃圾邮件。指标是设计一个主动垃圾邮件检测器,它能够在用户邮箱梗塞之前过滤掉垃圾邮件。对于所有 4601 电子邮件音讯,能够晓得实在后果是 (即电子邮件类型) 失常邮件 还是 垃圾邮件 ,以及电子邮件音讯中最常见的 57 个单词和标点符号的绝对频率。这是一个监督学习问题,其后果是类变量 失常邮件 / 垃圾邮件 。也叫 分类 问题。
表 1.1 列出了显示 垃圾邮件 和失常邮件 之间最大均匀差别的单词和字符。
表 1.1. 电子邮件中与指定单词或字符雷同的单词或字符的均匀百分比。咱们抉择了显示垃圾邮件和失常邮件之间最大差别的单词和字符。
咱们的学习办法必须决定应用哪些个性以及如何应用: 例如,咱们能够应用一个规定,如下
if(%george < 0.6)&(&you>1.5) then 垃圾邮件
else 失常邮件.
另一种模式的规定可能是:
if(0.2·&you - 0.3·%george) > 0 then 垃圾邮件
else 失常邮件.
对于这个问题,不是所有的误差都相等;咱们心愿防止过滤掉失常的电子邮件,而让垃圾邮件通过是不可取的,但结果不那么重大。咱们在书中探讨了解决这个学习问题的许多不同办法。
例 2:前列腺癌症
图 1.11 中显示的此示例的数据来自 Stamey 等人的一项钻研。(1989) 在 97 名行将承受根治性前列腺切除术的男性中查看了前列腺特异性抗原 (PSA) 程度与许多临床指标之间的相关性。
图 1.1. 前列腺癌数据的散点图矩阵。第一行顺次显示了对每个预测值的响应。svi 和 gleason 这两个预测因子是相对的。
咱们的指标是通过一系列测量值来预测前列腺特异性抗原 (lpsa) 的对数,这些测量包含肿瘤体积的对数 (lcavol)、前列腺分量对数(lweight)、年龄、良性前列腺增生量的对数(lbph)、精囊侵袭(svi)、荚膜浸透的对数(lcp)、Gleason 评分(Gleason) 以及 Gleason 评分 4 或 5(pgg45)的百分比。图 1.1 是变量的散点图矩阵。一些测量值与 lpsa 的相关性是显著的,然而一个好的预测模型很难通过肉眼来构建。
这是一个监督学习问题,被称为回归问题,因为后果测量是定量的。
例 3:手写数字辨认
这个例子中的数据来自美国邮政信封上的手写邮政编码。每张图片都是一个五位数字的邮政编码的一部分,切分成一个独自的数字。这些图像是 $16×16$ 的 8 -bit 灰度图,每个像素的亮度范畴从 $0$ 到 $255$。一些示例图像如图 1.2 所示。
图 1.2. 美国邮政信封中的手写数字示例。
图像已被归一化为具备大致相同的大小和方向。工作是从 $16 × 16$ 像素强度矩阵中疾速精确地预测每个图像的身份 $(0,1, . . . ,9)$。如果它足够精确,则生成的算法将用作信封主动分类程序的一部分。这是一个分类问题,须要将错误率放弃在非常低的程度以防止邮件误传。为了实现这种低错误率,能够将一些对象调配到“不确定”类别,并手动分类。
例 4:DNA 表白微阵列
DNA 代表脱氧核糖核酸,是形成人类染色体的根本物质。DNA 微阵列通过测量基因的信使核糖核酸 (mRNA) 的数量来测量基因在细胞中的表白。微阵列被认为是生物学中的一项突破性技术,它有助于从单个细胞样本中同时对数千个基因进行定量钻研。
以下是 DNA 微阵列的工作原理。几千个基因的核苷酸序列印在载玻片上。指标样品和参考样品用红色和绿色染料标记,每一个都与载玻片上的 DNA 混合。通过荧光透视,测量每个位点的核糖核酸混合的对数 (红 / 绿) 强度。后果是几千个数字,通常范畴从 $-6$ 到 $6$,测量每个基因在指标样品中绝对于参考样品的表白程度。正值示意目标值比参考值高,负值示意目标值比参考值低。
基因表白数据集收集了一系列基因微阵列试验的表白值,每列代表一个试验。因而,有几千行 (一行代表单个基因),几十列(一列代表单个样本): 在图 1.3 的特定例子中,有 6830 个基因(行) 和 64 个样本 (列),只管为了分明起见,只显示了一个随机样本的 $100$ 行。该图将数据集显示为热图,范畴从绿色(负) 到红色(正)。样本是来自不同患者的 64 个癌症肿瘤。
图 1.3. DNA 微阵列数据:6830 个基因 (行) 和 64 个样本 (列) 的表白矩阵,用于人类肿瘤数据。只显示了随机样本的 100 行。显示为一个热图,范畴从亮绿色 (负,表白有余) 到亮红色(正,表白适度)。缺失值为灰色。行和列以随机抉择的程序显示。
这里的挑战是了解基因和样本是如何组织的。典型问题包含以下内容:(a) 就跨基因表白谱而言,哪些样本彼此最类似?
(b) 就样本间的表白谱而言,哪些基因彼此最类似?
(c) 对于某些癌症样本,某些基因是否体现出十分高 (或低) 的表白?
咱们能够将这项工作视为一个回归问题,有两个分类预测变量——基因和样本——响应变量是表白程度。然而,将其视为 无监督学习 问题可能更有用。例如,对于下面的问题(a),咱们把样本看成是 $6830$ 维空间中的点,咱们心愿以某种形式将它们汇集在一起。