共计 592 个字符,预计需要花费 2 分钟才能阅读完成。
··数据歪斜的例子:
数据歪斜的例子,人群中的一种常见病,患病率只有 0.5%,编写一个程序,只输入 0(未患病),那么准确率是 99%,错误率只有 0.5%,显然这是没有意义的。
这时,咱们通常应用不同的误差度量,而不仅仅是分类误差。如上图中所示:有三个程序,错误率别离是 0.5%,1%,1.2%,这时并不能简略的通过错误率来抉择出一个好的程序。因为 0.5% 只会输入 0,这是没有意义的,而 1% 和 1.2% 的可能还会筛选出一些患者。
所以综上所述,咱们通常应用不同的误差度量,而不仅仅是分类误差。
1. 一个常见的谬误度量:精确度和召回率
同时计算精确度和召回率,会更容易发现,是否一个算法是相当精确的,当它说一个病人得了一种病,病人很可能患有某种疾病,比方上面的这个例子中的概率是 0.75,所有这种病的病人中,它能够帮忙诊断其中的一部分,比方这里,它找到了其中的 60%
· 一般来说,学习算法具备无论是 0 精确度还是零召回都不是有用的算法。
在上述例子中,如果算法始终输入 0,那么精确度和召回率就都是 0.
·summary:
当你有一个常见的类时,关注精确度和召回率,确保这两个数字都很高,
(1). 均衡精确度和召回率
个别状况下,咱们依据上图中画出的曲线,人工手动抉择出一个正当的点,选出正当的精确度和召回率。
·上面有一些办法也能够主动的帮忙咱们选出精确度和召回率:
1.F1 score
这个方程也被称为 P 和 R 的和谐均值。
正文完