··数据歪斜的例子:
数据歪斜的例子,人群中的一种常见病,患病率只有0.5%,编写一个程序,只输入0(未患病),那么准确率是99%,错误率只有0.5%,显然这是没有意义的。

这时,咱们通常应用不同的误差度量,而不仅仅是分类误差。如上图中所示:有三个程序,错误率别离是0.5%,1%,1.2%,这时并不能简略的通过错误率来抉择出一个好的程序。因为0.5%只会输入0,这是没有意义的,而1%和1.2%的可能还会筛选出一些患者。

所以综上所述,咱们通常应用不同的误差度量,而不仅仅是分类误差。

1.一个常见的谬误度量:精确度和召回率

同时计算精确度和召回率,会更容易发现,是否一个算法是相当精确的,当它说一个病人得了一种病,病人很可能患有某种疾病,比方上面的这个例子中的概率是0.75,所有这种病的病人中,它能够帮忙诊断其中的一部分,比方这里,它找到了其中的60%

·一般来说,学习算法具备无论是0精确度还是零召回都不是有用的算法。
在上述例子中,如果算法始终输入0,那么精确度和召回率就都是0.
·summary:
当你有一个常见的类时,关注精确度和召回率,确保这两个数字都很高,

(1).均衡精确度和召回率


个别状况下,咱们依据上图中画出的曲线,人工手动抉择出一个正当的点,选出正当的精确度和召回率。
·上面有一些办法也能够主动的帮忙咱们选出精确度和召回率:

1.F1 score

这个方程也被称为P和R的和谐均值。