关于人工智能:假设检验中的第一类错误和第二类错误

58次阅读

共计 3894 个字符,预计需要花费 10 分钟才能阅读完成。

咱们每天都在为抉择进行本人的假如,并且依照本人认为最好的方向做出抉择,所以假如在咱们的生存中是无处不在的,例如:A 路是否会比 B 路破费更少的工夫,X 的均匀投资回报率是否高于 Y 的投资,以及电影 ABC 是否比电影 XYZ 好。在所有这些状况下,咱们都在对咱们做出的假如进行测验。

建设假如,应用数据证实 / 反驳它们,帮忙企业做出决策,这是数据科学家的理论工作。人们通常依附概率来了解偶尔察看数据的可能性,并利用它围绕假如得出结论。概率永远(简直!)不会 100%,这反过来意味着咱们永远无奈 100% 确定咱们的论断。所以在围绕咱们假如的假如得出结论时,总是会呈现谬误的状况。

上面的本文就是对统计假设检验期间产生的 Type- I 和 Type-II 谬误的直观而具体的解释。

假设检验

假设检验是通过观察样本数据来测验围绕总体参数的假如的畛域,因为咱们很少有整体的数据,所以只能从整体中进行抽样察看。

这通常是通过从假如的中性状态(称为原假如、零假如、虚无假设)开始并依据察看到的样本数据证实或反驳这一点来实现的。

  • 原假如 (H0) 是假如总体数据中的现状(无关系或无差别)的中性假如。
  • H1 是 H0 的备选项,称为备择假如也被称为对抗假如。

假设检验的根本思维是概率性质的反证法。依据所考查问题的要求提出原假如和备择假如,为了测验原假如是否正确,先假设原假如是正确的状况下,结构一个小概率事件,而后依据抽取的样本去测验这个小概率事件是否产生。

假设检验过程如下:

假如 H0 → 察看样本数据 → 回绝或不回绝 H0

咱们假如中性 H0 为真,并在察看到的数据中寻找“回绝”或“不回绝”H0 的证据。依据察看到的样本数据,咱们计算察看到的统计量和察看到的 P 值;例如:从咱们察看到的样本中取得的假如 H0 为真的概率。

而后将该察看到的 P 值与预先确定的显著性程度(或 Alpha 值)进行比拟。此 Alpha 值充当阈值,超过该阈值会认为察看到的后果具备统计显着性。基于察看到的 P 值与预先选择的阈值 alpha 值的比拟,就能够就假如的 H0 得出结论:

  • 察看到的 P 值 ≤ 预选 Alpha 级别 → 回绝 H0
  • 察看到的 P 值 > 预选的 Alpha 级别 → 不回绝 H0

因为察看到的 P 值是一个概率,因而总是有可能对“回绝”或“不回绝”原假如做出谬误的判断。

在下图 1 中,左侧是假如的原假如 (H0) 总体散布,右侧是备择假如 (H1) 总体散布。(两者都是未知的和假如的,因为没有整体的数据,只是依据抽样的样本判断)。察看到的样本将位于这些散布的某个地位,基于此咱们将得出对于咱们的零假如 (H0) 的论断。

图 1:零假如 (H0) 散布和备选假如 (H1) 散布

如果散布没有重叠,咱们将永远不会在论断中察看到谬误。然而在理论状况中,它们简直总是重叠的。Type-I 和 Type-II 谬误产生在这两个散布重叠的中央。

须要阐明的是:对于原假如,咱们能够依据在数据中察看到的证据“回绝它”,也能够“不回绝它”,因为察看到的数据没有带来足够的重要证据。

假设检验:可能性

实际上,H0 只有两个选项——它能够是 True 或 False。同样,依据察看到的数据,咱们只能得出两个可能的论断——咱们能够回绝 H0 或不回绝 H0。

其实这就变成了一个二分类的问题,H0 是正确的还是谬误的

  1. H0 是真,然而回绝 H0
  2. H0 是真,不回绝 H0
  3. H0 是假,回绝 H0
  4. H0 是假,不回绝 H0

(2)和(3),咱们正在依据察看到的数据做出正确的论断。

(1)和(4),咱们得出了谬误的论断,因为察看到的数据发现与事实南辕北辙。在场景 (1) 和 (4) 中,就是本文要解释的 Type-I 和 Type-II 谬误。

如果你对统计学不理解,然而晓得一些机器学习的实践的话,能够应用上面的类比办法:下面的 1 - 4 其实就是咱们始终说的混同矩阵,2,3 是分类正确的值,即 TP 和 TN,1,4 则是 FP 和 FN。

Type-I 第一类谬误

Type- I 谬误是指当原假如实际上为真时回绝原假如的场景。依据咱们察看到的数据得出结论是察看到的后果在事实中具备统计意,然而咱们认为它是无意义的。

如上所述,“回绝”或“不回绝”零假如取决于察看到的 P 值和预先确定的 alpha 值。所以在某些状况下,实在的原假如将被回绝,因为察看到的 P 值将小于预先选择的 Alpha 程度。这就是 Type- I 谬误的内容:False-Positive

对于 Type- I 谬误场景:

  • 真实情况 H0 对总体为真
  • 察看论断回绝 H0

对于对总体正确的原假如,如果咱们重复采样,能够失去原假如散布曲线,显示所有可能察看到的样本后果的概率。(下图 2 左侧 H0 散布)

当咱们察看一个样本时,咱们回绝 H0,这意味着这个察看到的样本必须位于 H0 散布曲线的最右侧,与 H1 散布曲线重叠。下图 2 示意这种状况:

图 2:Type- I 谬误的概率

Type- I 谬误的区域,称为临界区域,示意在零假如散布曲线的右尾端。这是由咱们预先选择的 Alpha 值决定的。

如果咱们察看到的后果落在这个区域,咱们将回绝零假如(对于这些场景,察看到的 p 值 <Alpha)。因为 H0 在事实中是正确的,咱们会得出 False-Positive 论断。

Type-II 第二类谬误

Type-II 谬误是指当原假如实际上是谬误的时不回绝它的场景。依据咱们察看到的数据得出的论断是,察看到的后果在实际上并不具备统计学意义,然而咱们认为它是有意义的。Type-II 谬误:False-Negative

这可能因为不足证据而产生,即咱们的钻研可能没有足够的统计能力来检测肯定的效应大小。

犯 Type-II 谬误的概率用 Beta 示意。统计钻研的效用(Power)定义为,Power = 1 – Beta

所以能够通过确保的钻研具备较高的统计效用来缩小犯 Type-II 谬误的机会。

对于 Type-II 谬误:

  • H0 对总体为假
  • 察看论断不回绝 H0

对于对总体谬误的零假如,如果咱们重复从总体中抽取样本,咱们将失去一条备择假如散布曲线,显示所有可能察看到的样本后果的概率。(下图 3 右侧 H1 散布)

因为咱们正在察看一个样本,因而咱们没有证据回绝 H0。这意味着这个察看到的样本必须位于 H1 散布曲线的最左侧,与 H0 散布曲线重叠(请参见上面的图 3 代表这种状况)

图 3:Type-II 谬误的概率

Beta 是 Type-II 错误率,由左侧的暗影区域示意。左边的残余区域代表统计效用(Power)。

如果察看到的后果落在该区域内,将无奈回绝零假如,即便咱们晓得 H0 对于总体而言是谬误的。所以得出一个 False-Negative 论断。

几个例子

1、测试新药以帮忙医治疾病:H0 新药有效、H1 新药无效

  • Type-I 谬误 → 判定新药无效,但实际上有效。
  • Type-II 谬误 → 判定新药有效,而实际上它对治愈疾病无效。

2、刑事审判:H0 无辜、H1 有罪

  • Type-I 谬误 → 判定一个人是有罪的,而实际上他是无辜的。(即一个无辜的人被送进监狱)
  • Type-II 谬误 → 判定一个人是无辜的,但实际上他是有罪的。(即开释有罪的人)

I 和 II 谬误之间的衡量

在假设检验中通过将察看值与预先确定的截止值 (Alpha) 进行比拟来“回绝”或“不回绝”假如。所以思考以下使 Alpha 越来越低的状况:

状况 1:如果 Alpha 变得更严格(即 Alpha 的值越小),在回绝 H0 方面的限度就会更严格,而在不回绝 H0 方面的限度会更小。这会导致不太可能回绝 H0,更有可能不回绝 H0。

  • 在真实情况中 H0 为 True 的状况下,回绝 H0 的可能性较小会导致 Type- I 谬误比以前更少。
  • 在真实情况中 H0 为 False 的状况下,更可能不回绝 H0 将导致比以更多的 Type-II 谬误。

状况 2:如果 Alpha 级别变得不那么严格(即更高的 Alpha 值),在回绝 H0 方面的限度将更少,而在不回绝 H0 方面的限度更大。这会导致更有可能回绝 H0,不太可能不回绝 H0。

  • 在真实情况中 H0 为 True 的状况下,更有可能回绝 H0 将导致以更多的 Type- I 谬误。
  • 在真实情况中 H0 为 False 的状况下,不太可能不回绝 H0 将导致 Type-II 谬误比以前更少。

因而显然存在二者的衡量,因为 2 类的谬误是相干的,当一个减少另一个缩小时,反之亦然。

从下图 4 能够看出,如果 Alpha 减少,则 Beta 缩小,如果 Beta 缩小,则 Alpha 将减少。

图 4:产生 Type- I 和 Type-II 谬误的概率

哪个类的谬误更蹩脚呢?没有简略的答案,因为都取决于被测验的假如和做出谬误论断的老本评估:如果 Type-I 的老本较高,则应尽量避免如果制作 Type-II 老本高,也应该优先思考。

然而通常认为 Type- I 误会产生更多结果,因为 Type- I 谬误意味着违反现状(H0)的假如,并可能导致引入新的变动,现有的情况产生更坏的影响。而 Type-II 谬误意味着无奈回绝对现状 (H0) 的假如,并且可能只会导致错失机会。

总结

假设检验是数据迷信中一个十分重要的概念。统计的力量使咱们可能对总体做出假如,察看数据样本以使咱们可能回绝或不回绝咱们的假如并得出结论。假设检验有两种可能的谬误——Type- I 谬误和 Type-II 谬误。

假设检验过程:假如一个中性 H0 → 察看数据(将察看到的 P 值与预先确定的 alpha 程度进行比拟)→ 回绝或不回绝 H0。

Type- I 谬误:False-Positive

Type-II 谬误:False-Negative

Type-I 和 Type-II 谬误相互影响相同。缩小一个总是减少另一个,反之亦然。一般来说,Type-I 谬误被认为 Type-II 谬误更重要。然而,也要取决于被测验的假如以及围绕咱们的假如得出这些谬误论断的老本。

https://www.overfit.cn/post/4d75045d74534fb78322f07131eb4423

作者:Deepak Chopra

正文完
 0