关于数据挖掘:多分类任务的混淆矩阵

61次阅读

共计 1189 个字符,预计需要花费 3 分钟才能阅读完成。

明天我将探讨如何在多分类中应用混同矩阵评估模型的性能。

什么是混同矩阵?

它显示了理论值和预测值之间的差别。它通知咱们有多少数据点被正确预测,哪些数据点没有被正确预测。对于多分类来说,它是一个 N N 矩阵,其中 n 是编号。输入列中的类别,也称为指标属性。一二分类工作中蕴含了 2 个类也就是一个 22 矩阵,个别状况下介绍混同矩阵都会以二分类为例。如果有 3 个类呢?那么将失去一个 3*3 矩阵依此类推。通过下面形容咱们晓得,混同矩阵的类将具备雷同数量的行和列。

上面让咱们尝试理解一些罕用术语,有 TP(True Positive)、FP(False Positive)、False Positive 和 FN(False Negative)。

咱们将应用一个 3 x 3 矩阵,咱们将应用我将向您展现的技巧计算 TP、TN、FP、FN 值。这个技巧也能够利用于 44、55…N*N 矩阵。

思考这个混同矩阵在下图 1 中的数据集的输入列中具备 A、B、C 类。

咱们将尝试计算 A 类的 TP(True Positive)、FP(False Positive)、False Positive 和 FN(False Negative)的值

TP

TruePositive(A):它通知理论值和预测值雷同。A 类的 TP 只不过是理论值和预测值雷同,这意味着单元格 1 的值为 15。

FP

FalsePositive(A):它通知理论值是负的,在咱们的例子中它是 B 类和 C 类,但模型预测它是正的,即 A 类。它是除了 TP 值之外的相应列的值的相加。

FalsePositive(A) = (单元格 4 + 单元格 7):7+2=9

TN

TrueNegative(A):理论值和预测值的含意雷同,对于 A:B 类和 C 类是负分类。它是所有非 A 行和列的值相加。

TrueNegative(A) = (单元格 5 + 单元格 6 + 单元格 8 + 单元格 9):15 + 8 +3 + 45= 71

FN

FalseNegative(A):理论值在咱们的例子中是正的,它是 A 类,但模型预测它是负的,即 B 类和 C 类。能够通过除 TP 值之外的相邻行来计算的。

FalseNegative(A) = (单元格 2 + 单元格 3):2 + 3= 5

罕用指标

当初是计算 A 类的 Precision、Recall 和 Accuracy 的时候了。

精度 Precision:“模型认为正确且的确是正确的样本 模型认为正确的所有样本 的概率”

Precision (A) = 正确预测 / 总预测 = 15/24 = 0.625

召回 Recall:“模型认为正确且的确是正确的样本 模型认为正确的所有样本 的概率”

Recall (A)= 正确分类 / 总理论值 = 15/20 = 0.75

正确率 Accuracy:被分对的样本数除以所有的样本数

Accuracy (A) = 正确分类的总数 / 理论分类的总数 =(15 + 15+ 45)/100 = 0.75

同样,能够计算 B 类和 C 类的 TP、FP、FN、TN、Precision、Recall

作者:Akash Borgalli

正文完
 0