关于人工智能:机器学习评价标准

6次阅读

共计 3390 个字符,预计需要花费 9 分钟才能阅读完成。

机器学习评估指标

一、分类算法

混同矩阵

混同矩阵是监督学习中的一种可视化工具,次要用于比拟分类后果和实例的实在信息。矩阵中的每一行代表实例的 预测类别 , 每一列代表实例的 实在类别

混同矩阵的指标

1、TP:将正类预测为正类数

2、FN:将正类预测为负类数

3、FP:将负类预测为正类数

4、TN:将负类预测为负类数

1、准确率

分类正确的正样本个数占分类器断定为正样本的样本个数的比例(预测分类为 1,相应的预测对的概率)—错报

2、召回率

分类正确的正样本个数占真正的正样本个数的比例(实在分类为 1,相应的预测对的概率)—漏报

比如说:咱们要从一个 盒子 外面挑选出 10 个球,其中盒子球的形成为红球:95,白球:5。那么抽到白球的准确率,召回率?

第一次:10 个都是红色 —- 那么准确率:0 召回率:0

第二次:6 个红色,4 个红色 — 那么准确率:4/10 召回率:4/5

计算公式

$$
准确率 =\frac{所有预测正确的样本}{总样本}=\frac{TP+TN}{TP+FN+FP+TN}
$$

$$
召回率 =\frac{将正类预测为正类}{本来正类}=\frac{TP}{TP+FN}
$$

$$
准确率 =\frac{将正类预测为正类}{预测的正类}=\frac{TP}{TP+FP}
$$

取舍问题:在不同的场合对于 准确率和召回率 要求不同。

例如:对于股票预测,更多的应该是关注精准率,假如关注股票回升的状况,高精准率意味着 TP 值高(正确地预测到股票会升),这个时候能够帮忙人们调整投资,增加收入,如果这一指标低,就认为 FP 值高(谬误地认为股票会升),也就是说股票其实是降的,而预测成升了,这将会使用户亏钱。而召回率低只是意味着在股票回升的状况中,对几个股票回升的状况没有被预测到,这对于投资者来说也是能够承受的,毕竟没有亏钱,因而低召回率对用户影响不是很大。

例如:对于疾病预测畛域,更多的应该关注召回率,因为高召回率意味着可能更多地将得病的病人预测进去,这个对于患病者十分重要。而精准率低意味着谬误地预测病人患病,而这个时候只有被预测患病的人再去检查一下即可,实际上是能够承受的,因而低精准率对用户影响不大。

3、F1-score

是一种量测算法的精确度罕用的指标,常常用来判断算法的精确度。目前在辨识、侦测相干的算法中常常会别离提到 准确率(precision)和 召回率(recall),F-score 能同时思考这两个数值,均衡地反映这个算法的精确度。

维基百科:https://zh.wikipedia.org/wiki/F-score

计算公式:

$$
F_1=\frac{2TP}{2TP+FN+FP}
$$

构想一下一个比拟极其的状况,如正样本 90 个,负样本 10 个,咱们间接将所有样本分类为正样本,失去准确率为 90%。单从数值上而言后果是能够承受的,然而这样就违反了咱们进行分类的初衷,应该赛选出正样本的同时,尽可能少的让负样本进入。那么咱们就引入 TPR、FPR、TNR 对其进行限度

4、ROC 曲线和 AUC 值

4.1 TPR、FPR、TNR

真正类率 ,刻画的是被分类器正确分类的正实例占所有正实例的比例。 即:正确判断为正的占全副正的比例

$$
TPR=\frac{TP}{TP+FN}
$$

负正类率 ,计算的是被分类器错认为正类的负实例占所有负实例的比例。 即:将负错误判断为正的占全副负的比例

$$
FPR=\frac{FP}{FP+TN}
$$

真负类率 ,刻画的是被分类器正确分类的负实例占所有负实例的比例。 即:正确分类为负占全副负的比例

$$
TNR=1-FPR=\frac{TN}{FP+TN}
$$

那么通过剖析容易晓得,咱们心愿 TPR 的值越大越好,相同 FPR 的值越小越好。晓得 3 个指标之后咱们开始理解什么是 ROC 曲线,构想在一个分类问题(比方手写字体辨认)中咱们可能很难 100% 的判断就肯定属于某个数值,然而要是给定属于某个数字的概率,比如说属于 1 的概率为 95%,2 的概率为 90%…… 那么咱们很可能做出判断这个手写字就是 1,为什么呢?因为他的概率大?然而数字 2 的概率也有 90% 为什么不抉择数字 2 呢?在理论生存中这种状况常常有,咱们很难 100% 判断某个数字然而咱们能够规定,比如说:概率大于 90% 那么就认为是 1,反之记作 0 这样的话下面的例子就解释得通了。这个 90% 经常记作 阈值,那么不同阈值和咱们 ROC 曲线又有什么关系呢?无妨通过上面这个例子进行理解:

分类问题:判断是不是🚲?

序号 类别 概率
1 🚳 0.3
2 🚲 0.3
3 🚲 0.6
4 🚲 0.8
5 🚲 0.9
6 🚳 0.1
7 🚳 0.2
8 🚳 0.3

那么能够假如不同 阈值,进而计算不同 TPR 和 FPR 的值。比如说:

阈值取 [0,0.1] 的时候,发现概率都大于 0.1 那么咱们认为全部都是🚲,所以就有

$$
TPR=\frac{TP}{TP+FN}=\frac{4}{4+0}
$$

$$
FPR=\frac{FP}{FP+TN}=\frac{4}{4+0}
$$

这样的话咱们就能够在 ROC 曲线上标记一个点,通过一直的挪动阈值咱们就能够失去一个 ROC 曲线
因而咱们能够失去:

这样的话咱们就能够失去一条 ROC 曲线,然而问题有来了要是咱们失去另外一条 ROC 曲线,也就是说咱们当初有两条 ROC 曲线,那么咱们应该怎么判断呢?这就是接下来要说的 AUC 值,问题又来了怎么晓得 AUC 的值呢?—–> 计算面积阿伟。没错就是计算面积,咱们能够通过计算不同 ROC 曲线与 FPR 的面积进而失去不同 AUC 的值,从而判断哪条 ROC 曲线更加的好!

那么问题来了上述剖析都是针对二分类问题,理论生存中并没有那么多非黑即白的事件,更多的是 多分类的问题,什么是多分类?维基百科给出的定义:多元分类是将实例调配到多个(多于两个)类别中的其中一个(将实例调配到两个类别中的其中一个被称为二分类)。显然,分类算法能够分为二分类和多分类两种,而多分类算法能够通过将其转化为多个二分类来实现。简略从字面了解很容易,比如说给出大量的交通图片,交给计算机去将这些图片进行分类,划分什么是🚗🚆✈等等,那么对于多分类问题其评估指标如何?上述分析方法是否仍旧行得通?对于多元分类咱们能够将多分类化成二分类问题,比如说下图:

二、回归算法评估指标

1、RMSE 均方根误差

$$
RMSE(X,h)=\sqrt[2]{\frac{1}{m}\displaystyle\sum^{m}_{i=1}(h(x_i)-y_i)^2}
$$

2、MSE 均方误差

$$
MSE(X,h)=\frac{1}{m}\displaystyle\sum^{m}_{i=1}(h(x_i)-y_i)^2
$$

3、MAE 均匀绝对误差

$$
MAE(X,h)=\frac{1}{m}\displaystyle\sum^{m}_{i=1}(|h(x_i|)-y_i|
$$

4、R-squared

R Squared 又叫可决系数 (coefficient of determination) 也叫拟合优度, 反映的是自变量 x 对因变量 y 的变动的解释的水平. 越靠近于 1, 阐明模型拟合得越好。能够这么了解:将 TSS 了解为全副按平均值预测,RSS 了解为按模型预测,这就相当于去比拟你模型预测和全副按平均值预测的比例,这个比例越小,则模型越准确。当然该指标存在正数的状况,即模型预测还不如全副按平均值预测
毛病:当数据分布方差比拟大时,预测不准时,R^2 仍然比拟大,此时改评估指标就不太好

$$
R^2=(y,\tilde{y})=1-\frac{\displaystyle\sum_{i=0}^{n}({y_i-\tilde{y_i}})^2}{\displaystyle\sum_{i=0}^{n}({y_i-\tilde{y_i}})^2}=\frac{ESS}{TSS}=1-\frac{RSS}{TSS}
$$

参考

https://blog.csdn.net/manduner/article/details/91040867

https://www.jianshu.com/p/2ca96fce7e81

【小萌五分钟】机器学习 | 模型评估: ROC 曲线与 AUC 值_哔哩哔哩_bilibili
https://blog.csdn.net/weixin_44441131/article/details/109037673

https://www.jianshu.com/p/e74eb43960a1

正文完
 0