关于机器学习:1-绪论

6次阅读

共计 2825 个字符,预计需要花费 8 分钟才能阅读完成。

       统计学习 在迷信、金融和工业的许多畛域施展着关键作用。以下是一些学习问题的例子:

         预测因心脏病发生住院的患者是否会再次心脏病发生。该预测将基于该患者的人口统计学、饮食和临床测量。

         依据公司业绩指标和经济数据,预测将来 6 个月的股票价格。

         从数字化图像中辨认手写邮政编码中的数字。

         依据糖尿病患者血液的红外吸收光谱,预计该患者血液中的葡萄糖含量。

         依据临床和人口统计学变量,确定前列腺癌的危险因素。

       学习迷信在统计、数据挖掘和人工智能畛域施展着关键作用,与工程和其余学科畛域穿插。

       这本书是对于从数据中学习的。在一个典型的场景中,咱们有一个后果测量,通常是定量的 (如股票价格) 或分类的 (如心脏病发生 / 无心脏病发生),咱们心愿基于一组特色(如饮食和临床测量) 来预测。咱们有一个训练数据集,在其中咱们察看后果和特色对一组对象 (如人) 的测量。应用这些数据,咱们建设了一个预测模型,或学习者,这将使咱们可能预测新的看不见的物体的后果。一个好的学习者可能精确预测这样的后果。

       下面的例子形容了所谓的监督学习问题。它被称为“监督的”,因为后果变量的存在领导了学习过程。在无监督学习问题中,咱们只察看特色,没有后果的度量。咱们的工作是形容数据是如何组织或汇集的。咱们把这本书的大部分工夫用于监督学习;无监督问题在文献中倒退较少,是第 14 章的重点。

       以下是本书探讨的一些实在学习问题的例子。

例 1:垃圾邮件

这个例子的数据由来自 4601 封电子邮件的信息组成,这项钻研试图预测这封电子邮件是失常邮件还是垃圾邮件。指标是设计一个主动垃圾邮件检测器,它能够在用户邮箱梗塞之前过滤掉垃圾邮件。对于所有 4601 电子邮件音讯,能够晓得实在后果是 (即电子邮件类型) 失常邮件 还是 垃圾邮件 ,以及电子邮件音讯中最常见的 57 个单词和标点符号的绝对频率。这是一个监督学习问题,其后果是类变量 失常邮件 / 垃圾邮件 。也叫 分类 问题。

       表 1.1 列出了显示 垃圾邮件 失常邮件 之间最大均匀差别的单词和字符。

表 1.1. 电子邮件中与指定单词或字符雷同的单词或字符的均匀百分比。咱们抉择了显示垃圾邮件和失常邮件之间最大差别的单词和字符。
       咱们的学习办法必须决定应用哪些个性以及如何应用: 例如,咱们能够应用一个规定,如下

if(%george < 0.6)&(&you>1.5)    then  垃圾邮件
                                else  失常邮件.

另一种模式的规定可能是:

if(0.2·&you - 0.3·%george) > 0    then  垃圾邮件
                                  else  失常邮件.

       对于这个问题,不是所有的误差都相等;咱们心愿防止过滤掉失常的电子邮件,而让垃圾邮件通过是不可取的,但结果不那么重大。咱们在书中探讨了解决这个学习问题的许多不同办法。

例 2:前列腺癌症

图 1.11 中显示的此示例的数据来自 Stamey 等人的一项钻研。(1989) 在 97 名行将承受根治性前列腺切除术的男性中查看了前列腺特异性抗原 (PSA) 程度与许多临床指标之间的相关性。

图 1.1. 前列腺癌数据的散点图矩阵。第一行顺次显示了对每个预测值的响应。svi 和 gleason 这两个预测因子是相对的。

       咱们的指标是通过一系列测量值来预测前列腺特异性抗原 (lpsa) 的对数,这些测量包含肿瘤体积的对数 (lcavol)、前列腺分量对数(lweight)、年龄、良性前列腺增生量的对数(lbph)、精囊侵袭(svi)、荚膜浸透的对数(lcp)、Gleason 评分(Gleason) 以及 Gleason 评分 4 或 5(pgg45)的百分比。图 1.1 是变量的散点图矩阵。一些测量值与 lpsa 的相关性是显著的,然而一个好的预测模型很难通过肉眼来构建。
       这是一个监督学习问题,被称为回归问题,因为后果测量是定量的。

例 3:手写数字辨认

这个例子中的数据来自美国邮政信封上的手写邮政编码。每张图片都是一个五位数字的邮政编码的一部分,切分成一个独自的数字。这些图像是 $16×16$ 的 8 -bit 灰度图,每个像素的亮度范畴从 $0$ 到 $255$。一些示例图像如图 1.2 所示。

图 1.2. 美国邮政信封中的手写数字示例。
图像已被归一化为具备大致相同的大小和方向。工作是从 $16 × 16$ 像素强度矩阵中疾速精确地预测每个图像的身份 $(0,1, . . . ,9)$。如果它足够精确,则生成的算法将用作信封主动分类程序的一部分。这是一个分类问题,须要将错误率放弃在非常低的程度以防止邮件误传。为了实现这种低错误率,能够将一些对象调配到“不确定”类别,并手动分类。

例 4:DNA 表白微阵列

DNA 代表脱氧核糖核酸,是形成人类染色体的根本物质。DNA 微阵列通过测量基因的信使核糖核酸 (mRNA) 的数量来测量基因在细胞中的表白。微阵列被认为是生物学中的一项突破性技术,它有助于从单个细胞样本中同时对数千个基因进行定量钻研。

       以下是 DNA 微阵列的工作原理。几千个基因的核苷酸序列印在载玻片上。指标样品和参考样品用红色和绿色染料标记,每一个都与载玻片上的 DNA 混合。通过荧光透视,测量每个位点的核糖核酸混合的对数 (红 / 绿) 强度。后果是几千个数字,通常范畴从 $-6$ 到 $6$,测量每个基因在指标样品中绝对于参考样品的表白程度。正值示意目标值比参考值高,负值示意目标值比参考值低。

       基因表白数据集收集了一系列基因微阵列试验的表白值,每列代表一个试验。因而,有几千行 (一行代表单个基因),几十列(一列代表单个样本): 在图 1.3 的特定例子中,有 6830 个基因(行) 和 64 个样本 (列),只管为了分明起见,只显示了一个随机样本的 $100$ 行。该图将数据集显示为热图,范畴从绿色(负) 到红色(正)。样本是来自不同患者的 64 个癌症肿瘤。

                     

图 1.3. DNA 微阵列数据:6830 个基因 (行) 和 64 个样本 (列) 的表白矩阵,用于人类肿瘤数据。只显示了随机样本的 100 行。显示为一个热图,范畴从亮绿色 (负,表白有余) 到亮红色(正,表白适度)。缺失值为灰色。行和列以随机抉择的程序显示。
       这里的挑战是了解基因和样本是如何组织的。典型问题包含以下内容:

       (a)  就跨基因表白谱而言,哪些样本彼此最类似?

       (b)  就样本间的表白谱而言,哪些基因彼此最类似?

       (c)  对于某些癌症样本,某些基因是否体现出十分高 (或低) 的表白?

       咱们能够将这项工作视为一个回归问题,有两个分类预测变量——基因和样本——响应变量是表白程度。然而,将其视为 无监督学习 问题可能更有用。例如,对于下面的问题(a),咱们把样本看成是 $6830$ 维空间中的点,咱们心愿以某种形式将它们汇集在一起。

数据集及其他资源文件

正文完
 0