关于人工智能:机器学习评价标准

6次阅读

共计 3390 个字符，预计需要花费 9 分钟才能阅读完成。

混同矩阵

混同矩阵是监督学习中的一种可视化工具，次要用于比拟分类后果和实例的实在信息。矩阵中的每一行代表实例的 预测类别 , 每一列代表实例的 实在类别。

混同矩阵的指标

1、TP：将正类预测为正类数

2、FN：将正类预测为负类数

3、FP：将负类预测为正类数

4、TN：将负类预测为负类数

分类正确的正样本个数占分类器断定为正样本的样本个数的比例（预测分类为 1，相应的预测对的概率）—错报

分类正确的正样本个数占真正的正样本个数的比例（实在分类为 1，相应的预测对的概率）—漏报

比如说：咱们要从一个盒子外面挑选出 10 个球，其中盒子球的形成为红球：95，白球：5。那么抽到白球的准确率，召回率？

第一次：10 个都是红色 —- 那么准确率：0 召回率：0

第二次：6 个红色，4 个红色 — 那么准确率：4/10 召回率：4/5

计算公式

$$
准确率 =\frac{所有预测正确的样本}{总样本}=\frac{TP+TN}{TP+FN+FP+TN}
$$

$$
召回率 =\frac{将正类预测为正类}{本来正类}=\frac{TP}{TP+FN}
$$

$$
准确率 =\frac{将正类预测为正类}{预测的正类}=\frac{TP}{TP+FP}
$$

取舍问题：在不同的场合对于 准确率和召回率 要求不同。

例如：对于股票预测，更多的应该是关注精准率，假如关注股票回升的状况，高精准率意味着 TP 值高（正确地预测到股票会升），这个时候能够帮忙人们调整投资，增加收入，如果这一指标低，就认为 FP 值高（谬误地认为股票会升），也就是说股票其实是降的，而预测成升了，这将会使用户亏钱。而召回率低只是意味着在股票回升的状况中，对几个股票回升的状况没有被预测到，这对于投资者来说也是能够承受的，毕竟没有亏钱，因而低召回率对用户影响不是很大。

例如：对于疾病预测畛域，更多的应该关注召回率，因为高召回率意味着可能更多地将得病的病人预测进去，这个对于患病者十分重要。而精准率低意味着谬误地预测病人患病，而这个时候只有被预测患病的人再去检查一下即可，实际上是能够承受的，因而低精准率对用户影响不大。

是一种量测算法的精确度罕用的指标，常常用来判断算法的精确度。目前在辨识、侦测相干的算法中常常会别离提到准确率（precision）和召回率（recall），F-score 能同时思考这两个数值，均衡地反映这个算法的精确度。

维基百科：https://zh.wikipedia.org/wiki/F-score

计算公式：

$$
F_1=\frac{2TP}{2TP+FN+FP}
$$

构想一下一个比拟极其的状况，如正样本 90 个，负样本 10 个，咱们间接将所有样本分类为正样本，失去准确率为 90%。单从数值上而言后果是能够承受的，然而这样就违反了咱们进行分类的初衷，应该赛选出正样本的同时，尽可能少的让负样本进入。那么咱们就引入 TPR、FPR、TNR 对其进行限度

4.1 TPR、FPR、TNR

真正类率 ，刻画的是被分类器正确分类的正实例占所有正实例的比例。 即：正确判断为正的占全副正的比例

$$
TPR=\frac{TP}{TP+FN}
$$

负正类率 ，计算的是被分类器错认为正类的负实例占所有负实例的比例。 即：将负错误判断为正的占全副负的比例

$$
FPR=\frac{FP}{FP+TN}
$$

真负类率 ，刻画的是被分类器正确分类的负实例占所有负实例的比例。 即：正确分类为负占全副负的比例

$$
TNR=1-FPR=\frac{TN}{FP+TN}
$$

那么通过剖析容易晓得，咱们心愿 TPR 的值越大越好，相同 FPR 的值越小越好。晓得 3 个指标之后咱们开始理解什么是 ROC 曲线，构想在一个分类问题（比方手写字体辨认）中咱们可能很难 100% 的判断就肯定属于某个数值，然而要是给定属于某个数字的概率，比如说属于 1 的概率为 95%，2 的概率为 90%…… 那么咱们很可能做出判断这个手写字就是 1，为什么呢？因为他的概率大？然而数字 2 的概率也有 90% 为什么不抉择数字 2 呢？在理论生存中这种状况常常有，咱们很难 100% 判断某个数字然而咱们能够规定，比如说：概率大于 90% 那么就认为是 1，反之记作 0 这样的话下面的例子就解释得通了。这个 90% 经常记作阈值，那么不同阈值和咱们 ROC 曲线又有什么关系呢？无妨通过上面这个例子进行理解：

分类问题：判断是不是🚲？

序号类别概率

1 🚳 0.3

2 🚲 0.3

3 🚲 0.6

4 🚲 0.8

5 🚲 0.9

6 🚳 0.1

7 🚳 0.2

8 🚳 0.3

那么能够假如不同阈值，进而计算不同 TPR 和 FPR 的值。比如说:

阈值取 [0,0.1] 的时候，发现概率都大于 0.1 那么咱们认为全部都是🚲，所以就有

$$
TPR=\frac{TP}{TP+FN}=\frac{4}{4+0}
$$

$$
FPR=\frac{FP}{FP+TN}=\frac{4}{4+0}
$$

这样的话咱们就能够在 ROC 曲线上标记一个点，通过一直的挪动阈值咱们就能够失去一个 ROC 曲线
因而咱们能够失去：

序号	类别	概率
1	🚳	0.3
2	🚲	0.3
3	🚲	0.6
4	🚲	0.8
5	🚲	0.9
6	🚳	0.1
7	🚳	0.2
8	🚳	0.3

这样的话咱们就能够失去一条 ROC 曲线，然而问题有来了要是咱们失去另外一条 ROC 曲线，也就是说咱们当初有两条 ROC 曲线，那么咱们应该怎么判断呢？这就是接下来要说的 AUC 值，问题又来了怎么晓得 AUC 的值呢？—–> 计算面积阿伟。没错就是计算面积，咱们能够通过计算不同 ROC 曲线与 FPR 的面积进而失去不同 AUC 的值，从而判断哪条 ROC 曲线更加的好！

那么问题来了上述剖析都是针对二分类问题，理论生存中并没有那么多非黑即白的事件，更多的是 多分类的问题，什么是多分类？维基百科给出的定义：多元分类是将实例调配到多个（多于两个）类别中的其中一个（将实例调配到两个类别中的其中一个被称为二分类）。显然，分类算法能够分为二分类和多分类两种，而多分类算法能够通过将其转化为多个二分类来实现。简略从字面了解很容易，比如说给出大量的交通图片，交给计算机去将这些图片进行分类，划分什么是🚗🚆✈等等，那么对于多分类问题其评估指标如何？上述分析方法是否仍旧行得通？对于多元分类咱们能够将多分类化成二分类问题，比如说下图：

$$
RMSE(X,h)=\sqrt[2]{\frac{1}{m}\displaystyle\sum^{m}_{i=1}(h(x_i)-y_i)^2}
$$

$$
MSE(X,h)=\frac{1}{m}\displaystyle\sum^{m}_{i=1}(h(x_i)-y_i)^2
$$

$$
MAE(X,h)=\frac{1}{m}\displaystyle\sum^{m}_{i=1}(|h(x_i|)-y_i|
$$

R Squared 又叫可决系数 (coefficient of determination) 也叫拟合优度, 反映的是自变量 x 对因变量 y 的变动的解释的水平. 越靠近于 1, 阐明模型拟合得越好。能够这么了解：将 TSS 了解为全副按平均值预测，RSS 了解为按模型预测，这就相当于去比拟你模型预测和全副按平均值预测的比例，这个比例越小，则模型越准确。当然该指标存在正数的状况，即模型预测还不如全副按平均值预测
毛病：当数据分布方差比拟大时，预测不准时，R^2 仍然比拟大，此时改评估指标就不太好

$$
R^2=(y,\tilde{y})=1-\frac{\displaystyle\sum_{i=0}^{n}({y_i-\tilde{y_i}})^2}{\displaystyle\sum_{i=0}^{n}({y_i-\tilde{y_i}})^2}=\frac{ESS}{TSS}=1-\frac{RSS}{TSS}
$$

参考

https://blog.csdn.net/manduner/article/details/91040867

https://www.jianshu.com/p/2ca96fce7e81

【小萌五分钟】机器学习 | 模型评估: ROC 曲线与 AUC 值_哔哩哔哩_bilibili
https://blog.csdn.net/weixin_44441131/article/details/109037673

https://www.jianshu.com/p/e74eb43960a1

正文完

人工智能

发表至：人工智能

2023-03-09

0

关于人工智能:F6无需代码连接飞书即时消息的方法

关于人工智能:技术创业者必读从验证想法到技术产品商业化的全方位解析

关于人工智能:百度与张江集团达成战略合作AI助推上海城市数字化转型

关于人工智能:怎样从文档中提取自定义实体

关于前端:学习图片15图像内容分发网络

关于人工智能:机器学习评价标准

机器学习评估指标

一、分类算法

1、准确率

2、召回率

3、F1-score

4、ROC 曲线和 AUC 值

4.1 TPR、FPR、TNR

二、回归算法评估指标

1、RMSE 均方根误差

2、MSE 均方误差

3、MAE 均匀绝对误差

4、R-squared

站内搜索