模型评价标准

2023-05-16

机器学习

机器学习是通过一些让计算机可以自动学习的算法，从数据中分析获得规律，然后利用规律对新样本进行预测。

评价标准

为了了解模型的泛化能力，即判断模型的好坏，我们需要用某个指标来衡量，有了评价指标，就可以对比不同模型的优劣，对模型进行针对性地调参优化。

随着机器学习在不同领域中的应用，其评价方式需要和实际业务相结合，通过确定目标来定量设计评价标准。以下总结出不同类别模型的通用评价指标。

分类模型

用于分类的模型评价以准确率（Accuracy）、精确率（Precision）、召回率(Recall)、F1分值(F1 Score)为主，辅以ROC、AUC并结合实际应用场景进行结果评价。

准确率

预测正确的结果占总样本的百分比
公式如下：准确率 = （ TP + TN ) / ( TP + TN + FP + FN )
TP: 真正例，即将正类预测为正类数
TN:真负例，即将负类预测为负类数
FP:假正例，即将负类预测为正类数，也称误报
FN:假负例，即将正类预测为负类数，也称漏报

虽然准确率可以判断总的正确率，但当样本不平衡的情况下，并不能作为很好的指标来衡量模型效果。

精确率

精确率又叫查准率，代表对正样本结果中的预测准确程度。精确率描述模型有多准，即在预测为正例的结果中，有多少是真正例。
公式如下：查准率P = TP / ( TP + FP )

精确率高意味着误报率低。

召回率

召回率又叫查全率，描述模型有多全，即在所有正例样本中，有多少被模型预测为正例。
公式如下：查全率R = TP / ( TP + FN )

召回率高意味着漏报率低。

F1分值

精确率和召回率是矛盾的，无法做到双高。想要在P和R直接找到一个平衡点，就需要一个新的指标，F1 Score。

F1 Score同时考虑精确率和召回率，使二者取个平衡，同时达到最高。
公式如下： F1 = 2PR / ( P + R)

检测模型

IoU

mAP

mAP 这个术语有不同的定义。此度量指标通常用于信息检索、图像分类和目标检测领域。然而这两个领域计算 mAP 的方式却不相同。这里我们只谈论目标检测中的 mAP 计算方法。

将P-R曲线下的面积定义为AP,AP衡量的是训练好的模型在某个类别上的好坏，而mAP描述的模型在所有类别上的好坏。mAP是对AP求平均值，所有求出AP后即可很容易得到mAP。

mAP 常作为目标检测算法的评价指标，具体来说就是，对于每张图片检测模型会输出多个预测框（远超真实框的个数），我们使用 IoU (Intersection Over Union，交并比)来标记预测框是否预测准确。标记完成后，随着预测框的增多，查全率 R 总会上升，在不同查全率 R 水平下对准确率 P 做平均，即得到AP，最后再对所有类别按其所占比例做平均，即得到 mAP 指标。

参考 https://zhuanlan.zhihu.com/p/360539304

聚类模型

聚类的神经网络数据源没有进行标记，评价按照聚类算法的标准来操作，如RMSSTD、R Square、SRP等。待补充。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)