关于机器学习:吴恩达机器学习数据倾斜15

··数据歪斜的例子：
数据歪斜的例子，人群中的一种常见病，患病率只有0.5%，编写一个程序，只输入0（未患病），那么准确率是99%，错误率只有0.5%，显然这是没有意义的。

这时，咱们通常应用不同的误差度量，而不仅仅是分类误差。如上图中所示：有三个程序，错误率别离是0.5%，1%，1.2%，这时并不能简略的通过错误率来抉择出一个好的程序。因为0.5%只会输入0，这是没有意义的，而1%和1.2%的可能还会筛选出一些患者。

所以综上所述，咱们通常应用不同的误差度量，而不仅仅是分类误差。

1.一个常见的谬误度量：精确度和召回率

同时计算精确度和召回率，会更容易发现，是否一个算法是相当精确的，当它说一个病人得了一种病，病人很可能患有某种疾病，比方上面的这个例子中的概率是0.75，所有这种病的病人中，它能够帮忙诊断其中的一部分，比方这里，它找到了其中的60%

·一般来说，学习算法具备无论是0精确度还是零召回都不是有用的算法。
在上述例子中，如果算法始终输入0，那么精确度和召回率就都是0.
·summary:
当你有一个常见的类时，关注精确度和召回率，确保这两个数字都很高，

(1).均衡精确度和召回率

个别状况下，咱们依据上图中画出的曲线，人工手动抉择出一个正当的点，选出正当的精确度和召回率。
·上面有一些办法也能够主动的帮忙咱们选出精确度和召回率：

1.F1 score

这个方程也被称为P和R的和谐均值。