关于机器学习:吴恩达机器学习数据倾斜15

38次阅读

共计 592 个字符,预计需要花费 2 分钟才能阅读完成。

··数据歪斜的例子:
数据歪斜的例子,人群中的一种常见病,患病率只有 0.5%,编写一个程序,只输入 0(未患病),那么准确率是 99%,错误率只有 0.5%,显然这是没有意义的。

这时,咱们通常应用不同的误差度量,而不仅仅是分类误差。如上图中所示:有三个程序,错误率别离是 0.5%,1%,1.2%,这时并不能简略的通过错误率来抉择出一个好的程序。因为 0.5% 只会输入 0,这是没有意义的,而 1% 和 1.2% 的可能还会筛选出一些患者。

所以综上所述,咱们通常应用不同的误差度量,而不仅仅是分类误差。

1. 一个常见的谬误度量:精确度和召回率

同时计算精确度和召回率,会更容易发现,是否一个算法是相当精确的,当它说一个病人得了一种病,病人很可能患有某种疾病,比方上面的这个例子中的概率是 0.75,所有这种病的病人中,它能够帮忙诊断其中的一部分,比方这里,它找到了其中的 60%

· 一般来说,学习算法具备无论是 0 精确度还是零召回都不是有用的算法。
在上述例子中,如果算法始终输入 0,那么精确度和召回率就都是 0.
·summary:
当你有一个常见的类时,关注精确度和召回率,确保这两个数字都很高,

(1). 均衡精确度和召回率

个别状况下,咱们依据上图中画出的曲线,人工手动抉择出一个正当的点,选出正当的精确度和召回率。
·上面有一些办法也能够主动的帮忙咱们选出精确度和召回率:

1.F1 score

这个方程也被称为 P 和 R 的和谐均值。

正文完
 0