推荐系统遇上深度学习(九)--评价指标AUC原理及实践

2023-05-16

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tsaiedu，并注明消息来源，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

本文来自天善智能社区专栏作者[文文](https://ask.hellobi.com/people/%E7%9F%B3%E6%99%93%E6%96%87)

配套学习视频教程： [手把手教你用Python 实践深度学习](https://edu.hellobi.com/course/278)

引言

CTR问题我们有两种角度去理解，一种是分类的角度，即将点击和未点击作为两种类别。另一种是回归的角度，将点击和未点击作为回归的值。不管是分类问题还是回归问题，一般在预估的时候都是得到一个[0,1]之间的概率值，代表点击的可能性的大小。

如果将CTR预估问题当作回归问题，我们经常使用的损失函数是MSE；如果当作二分类问题，我们经常使用的损失函数是LogLoss。而对于一个训练好的模型，我们往往需要评估一下模型的效果，或者说泛化能力，MSE和LogLoss当然也可以作为我们的评价指标，但除此之外，我们最常用的还是AUC。

想到这里，我想到一个问题，AUC是否可以直接用作损失函数去优化呢？可以参考知乎的文章，还没太搞懂：https://www.zhihu.com/question/39840928

说了这么多，我们还不知道AUC是什么呢？不着急，我们从二分类的评估指标慢慢说起，提醒一下，本文二分类的类别均为0和1，1代表正例，0代表负例。

1、从二分类评估指标说起

1.1 混淆矩阵

我们首先来看一下混淆矩阵，对于二分类问题，真实的样本标签有两类，我们学习器预测的类别有两类，那么根据二者的类别组合可以划分为四组，如下表所示：

上表即为混淆矩阵，其中，行表示预测的label值，列表示真实label值。TP，FP，FN，TN分别表示如下意思：

TP（true positive）：表示样本的真实类别为正，最后预测得到的结果也为正；

FP（false positive）：表示样本的真实类别为负，最后预测得到的结果却为正；

FN（false negative）：表示样本的真实类别为正，最后预测得到的结果却为负；

TN（true negative）：表示样本的真实类别为负，最后预测得到的结果也为负.

可以看到，TP和TN是我们预测准确的样本，而FP和FN为我们预测错误的样本。

1.2 准确率Accruacy

准确率表示的是分类正确的样本数占样本总数的比例，假设我们预测了10条样本，有8条的预测正确，那么准确率即为80%。

用混淆矩阵计算的话，准确率可以表示为：

虽然准确率可以在一定程度上评价我们的分类器的性能，不过对于二分类问题或者说CTR预估问题，样本是极其不平衡的。对于大数据集来说，标签为1的正样本数据往往不足10%，那么如果分类器将所有样本判别为负样本，那么仍然可以达到90%以上的分类准确率，但这个分类器的性能显然是非常差的。

1.3 精确率Precision和召回率Recall

为了衡量分类器对正样本的预测能力，我们引入了精确率Precision和召回率Recall。

精确率表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；

召回率表示在原始样本的正样本中，最后被正确预测为正样本的概率；

二者用混淆矩阵计算如下：

精确率和召回率往往是一对矛盾的指标。在CTR预估问题中，预测结果往往表示会被点击的概率。如果我们对所有的预测结果进行降序排序，排在前面的是学习器认为最可能被点击的样本，排在后面的是学习期认为最不可能被点击的样本。

如果我们设定一个阈值，在这个阈值之上的学习器认为是正样本，阈值之下的学习器认为是负样本。可以想象到的是，当阈值很高时，预测为正样本的是分类器最有把握的一批样本，此时精确率往往很高，但是召回率一般较低。相反，当阈值很低时，分类器把很多拿不准的样本都预测为了正样本，此时召回率很高，但是精确率却往往偏低。

1.4 F-1 Score

为了折中精确率和召回率的结果，我们又引入了F-1 Score，计算公式如下：

对于F1 Score有很多的变化形式，感兴趣的话大家可以参考一下周志华老师的西瓜书，我们这里就不再介绍了。

1.5 ROC与AUC

在许多分类学习器中，产生的是一个概率预测值，然后将这个概率预测值与一个提前设定好的分类阈值进行比较，大于该阈值则认为是正例，小于该阈值则认为是负例。如果对所有的排序结果按照概率值进行降序排序，那么阈值可以将结果截断为两部分，前面的认为是正例，后面的认为是负例。

我们可以根据实际任务的需要选取不同的阈值。如果重视精确率，我们可以设定一个很高的阈值，如果更重视召回率，可以设定一个很低的阈值。

到这里，我们会抛出两个问题：

1)设定阈值然后再来计算精确率，召回率和F1-Score太麻烦了，这个阈值到底该设定为多少呢？有没有可以不设定阈值来直接评价我们的模型性能的方法呢？

2)排序结果很重要呀，不管预测值是多少，只要正例的预测概率都大于负例的就好了呀。

没错，ROC和AUC便可以解决我们上面抛出的两个问题。

ROC全称是“受试者工作特征”，（receiver operating characteristic）。我们根据学习器的预测结果进行排序，然后按此顺序逐个把样本作为正例进行预测，每次计算出两个重要的值，分别以这两个值作为横纵坐标作图，就得到了ROC曲线。

这两个指标是什么呢？是精确率和召回率么？并不是的，哈哈。

ROC曲线的横轴为“假正例率”（True Positive Rate,TPR)，又称为“假阳率”；纵轴为“真正例率”(False Positive Rate,FPR)，又称为“真阳率”，

假阳率，简单通俗来理解就是预测为正样本但是预测错了的可能性，显然，我们不希望该指标太高。

真阳率，则是代表预测为正样本但是预测对了的可能性，当然，我们希望真阳率越高越好。

ROC计算过程如下：

1)首先每个样本都需要有一个label值，并且还需要一个预测的score值（取值0到1）;

2)然后按这个score对样本由大到小进行排序，假设这些数据位于表格中的一列，从上到下依次降序;

3)现在从上到下按照样本点的取值进行划分，位于分界点上面的我们把它归为预测为正样本，位于分界点下面的归为负样本;

4)分别计算出此时的TPR和FPR，然后在图中绘制（FPR, TPR）点。

说这么多，不如直接看图来的简单：

AUC（area under the curve）就是ROC曲线下方的面积，如下图所示，阴影部分面积即为AUC的值：

AUC量化了ROC曲线表达的分类能力。这种分类能力是与概率、阈值紧密相关的，分类能力越好（AUC越大），那么输出概率越合理，排序的结果越合理。

在CTR预估中，我们不仅希望分类器给出是否点击的分类信息，更需要分类器给出准确的概率值，作为排序的依据。所以，这里的AUC就直观地反映了CTR的准确性（也就是CTR的排序能力）。

终于介绍完了，那么这个值该怎么计算呢？

2、AUC的计算

关于AUC的计算方法，如果仅仅根据上面的描述，我们可能只能想到一种方法，那就是积分法，我们先来介绍这种方法，然后再来介绍其他的方法。

2.1 积分思维

这里的积分法其实就是我们之前介绍的绘制ROC曲线的过程，用代码简单描述下：

auc =0.0

height =0.0

foreach training example x_i, y_i：

ify_i =1.0:

height = height +1/(tp+fn)

else

auc += height *1/(tn+fp)

returnauc

在上面的计算过程中，我们计算面积过程中隐含着一个假定，即所有样本的预测概率值不想等，因此我们的面积可以由一个个小小的矩形拼起来。但如果有两个或多个的预测值相同，我们调整一下阈值，得到的不是往上或者往右的延展，而是斜着向上形成一个梯形，此时计算梯形的面积就比较麻烦，因此这种方法其实并不是很常用。

2.2 Wilcoxon-Mann-Witney Test

关于AUC还有一个很有趣的性质，它和Wilcoxon-Mann-Witney是等价的，而Wilcoxon-Mann-Witney Test就是测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score。

根据这个定义我们可以来探讨一下二者为什么是等价的？首先我们偷换一下概念，其实意思还是一样的，任意给定一个负样本，所有正样本的score中有多大比例是大于该负类样本的score？由于每个负类样本的选中概率相同，那么Wilcoxon-Mann-Witney Test其实就是上面n2（负样本的个数）个比例的平均值。

那么对每个负样本来说，有多少的正样本的score比它的score大呢？是不是就是当结果按照score排序，阈值恰好为该负样本score时的真正例率TPR？没错，相信你的眼睛，是这样的！理解到这一层，二者等价的关系也就豁然开朗了。ROC曲线下的面积或者说AUC的值与测试任意给一个正类样本和一个负类样本，正类样本的score有多大的概率大于负类样本的score

哈哈，那么我们只要计算出这个概率值就好了呀。我们知道，在有限样本中我们常用的得到概率的办法就是通过频率来估计之。这种估计随着样本规模的扩大而逐渐逼近真实值。样本数越多，计算的AUC越准确类似，也和计算积分的时候，小区间划分的越细，计算的越准确是同样的道理。具体来说就是：统计一下所有的 M×N(M为正类样本的数目，N为负类样本的数目)个正负样本对中，有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的 score相等的时候，按照0.5计算。然后除以MN。公式表示如下：

实现这个方法的复杂度为O(n^2 )。n为样本数(即n=M+N)

2.3 Wilcoxon-Mann-Witney Test的化简

该方法和上述第二种方法原理一样，但复杂度降低了。首先对score从大到小排序，然后令最大score对应的sample的rank值为n，第二大score对应sample的rank值为n-1，以此类推从n到1。然后把所有的正类样本的rank相加，再减去正类样本的score为最小的那M个值的情况。得到的结果就是有多少对正类样本的score值大于负类样本的score值，最后再除以M×N即可。值得注意的是，当存在score相等的时候，对于score相等的样本，需要赋予相同的rank值(无论这个相等的score是出现在同类样本还是不同类的样本之间，都需要这样处理)。具体操作就是再把所有这些score相等的样本的rank取平均。然后再使用上述公式。此公式描述如下：

有了这个公式，我们计算AUC就非常简单了，下一节我们会给出一个简单的Demo

3、AUC计算代码示例

这一节，我们给出一个AUC计算的小Demo，供大家参考：

importnumpyasnp

label_all = np.random.randint(0,2,[10,1]).tolist()

pred_all = np.random.random((10,1)).tolist()

print(label_all)

print(pred_all)

posNum = len(list(filter(lambdas: s[0] ==1, label_all)))

if(posNum >0):

negNum = len(label_all) - posNum

sortedq = sorted(enumerate(pred_all), key=lambdax: x[1])

posRankSum =0

for j inrange(len(pred_all)):

if(label_all[j][0] == 1):

posRankSum +

=list(map(lambdax: x[0], sortedq)).index(j) +1

auc = (posRankSum - posNum * (posNum +1) /2) / (posNum * negNum)

print("auc:", auc)

输出为：

[[1],[1],[1],[1],[0],[0],[1],[0],[1],[0]]

[[0.3338126725065774],[0.916003907444231],[0.21214487870979226],[0.7598235037160891],[0.07060830328081447],[0.7650759555141832],[0.16157972737309945],[0.6526480840746645],[0.9327233203035652],[0.6581121768195201]]

auc:0.5833333333333334

参考文献

https://www.jianshu.com/p/848838ecbc2d

https://blog.csdn.net/dream_angel_z/article/details/50867951

https://www.zhihu.com/question/39840928

https://stats.stackexchange.com/questions/105501/understanding-roc-curve/105577

http://www.cnblogs.com/peizhe123/p/5081559.html

http://blog.revolutionanalytics.com/2017/03/auc-meets-u-stat.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随机推荐

Ubuntu18.04完整新手安装教程和分区设置

作者PS xff1a 好久没关注blog了 xff0c 居然这么多同学看了这篇文章 xff1a xff09 注意注意 xff1a 以下是关键总结 xff1a 分区 xff1a 这三个就够了 xff1a xff0c home xff0c sw
ROS基础（4）——安装ROS相关软件包

一 ROS的两种安装方式本章将会通过两种安装方式安装ROS相关软件包分别是 xff1a 通过apt方式安装RoboWare Studio 通过下载源码编译的方式安装安装ROS Academy for Beginners教学包这是两种常
arm与51单片机之间串口通信实验

这几天弄arm的串口通信 xff0c 因为以前有点单片机的基础 xff0c 于是就选了块51单片机与其实验实验内容是在linux下编写好串口通信程序 xff0c 编译后下载到arm板上运行 xff0c 验证其可行性 linux下串口程序
ROS源代码阅读（8）——定位

2021SC 64 SDUSC ROS源代码阅读 xff08 8 xff09 SLAM定位 xff1a 机器人定位的方法可以分为非自主定位与自主定位两大类非自主定位是在定位的过程中机器人需要借助机器人本身以外的装置如 xff1a 全球定位
博途V15

西门子博途V15仿真报错 WIN10虚拟机安装博途V15 xff0c 仿真时出现如下报错无法找到STEP 7 V15许可证开始以为是许可证问题 xff0c 找了18和19的Sim EKB Install进行激活 xff0c 但是并没有
Jetson TX2入门之开箱刷机跑demo

Jetson TX2 开箱配置 43 刷机 43 跑demo xff08 常见坑总结 xff09 简介 JetSon系列是Nvidia公司推出的面向无人智能化领域的嵌入式平台 xff0c 这块嵌入式板子的出现使得我们可以在边缘设备上处理复杂
集成显卡安装pytorch

Inter集成显卡安装pytorch 安装pytorch 计算机右键管理 gt 设备显示器 gt 显示适配器 xff0c 查看显卡我的电脑只有Inter的集成显卡 xff0c 没有独显刚开始接触 xff0c 对GPU不懂 xff0c
ROS可视化动态查看所有topic的频率/带宽/消息类型/数值

在程序运行或者回放数据包时 xff0c 希望实时查看到所有的正在向外发送的topic名字类型带宽频率数值等除了rostopic list以外还可使用rqt辅助包打开rqt rqt 选择Plugins插件 Topics信息 top
PID与MPC控制方法

记录udacity 无人驾驶工程师课程中控制部分 MPC代码和实践链接https github com udacity CarND MPC Quizzes 本文按照对udacity课程的理解和翻译而来 1 PID P xff1a Propo
C++STL容器及其优缺点介绍

STL容器介绍及选择方式容器类型容器优缺点一序列容器vectordequelistforward list xff08 C 43 43 11 xff09 queuepriority queue stackarray 二关联容器setm
word中插入noteExpress和页码出现乱码解决方法

在word中出现页码变成PAGE MERGEFORMAT xff0c noteExpress插入的代码也变成了乱码打开出问题的word文档 xff0c 按照如下设置 xff1a 文件选项高级显示文档内容不勾选显示域代码而非阈值修
FreeRTOS内核实现04：空闲任务与阻塞延时

目录 1 引入原因 2 实现空闲任务 2 1 定义空闲任务组件 2 2 创建空闲任务 3 实现阻塞延时 3 1 vTaskDelay函数实现 3 2 修改vTaskSwitchContext函数 3 3 SysTick初始化函数实现 3 4
NoteExpress对参考文献格式修改

文章目录 NoteExpress格式修改1 将带DOI的模板另存为 Revised GBT 7714 20152 编辑自定义的nes文件3 保存选择使用 NoteExpress参考文献格式修改规则GTB 7714 2015下载 NoteEx
ubuntu Nvidia显卡驱动安装后屏幕不能外接显示（扩展显示）的问题

文章目录结论安装历程问题详细描述解决方法结论配置文件 etc X11 xorg conf未正确配置 xff0c 安装历程安装显卡驱动后 xff0c 依旧无法正常扩展屏幕显示 xff0c 仔细一看发现在nvidia smi时出现No
ubuntu 16.04无法locate boot-repair的解决方法

ubuntu16 04 07加windows10后无法启动ubunu的问题解决boot repair的安装方法同样适用于ubuntu18 04 ubuntu20 01等系统不能启动的问题对boot repair修复的原理进行分析文章目录
论文降低word大小——图像免费压缩方法

在期刊和毕业论文提交盲审过程中 xff0c 时常对word和pdf的大小进行限制 xff0c 但是在多图的论文中 xff0c 将大小限制在20MB以内较为困难梳理以下两种方法 xff1a 1 visio图片大小压缩 visio图片插入到w
C/C++获取路径下所有文件及其子目录的文件名

一功能描述需要提取某个文件夹下所有文件名字 xff0c 当包含子目录时 xff0c 将子目录及其路径获取到二实现方式使用C语言的opendir函数 DIR span class token operator span dp spa
C/C++删除目录文件夹下所有文件（递归）

一问题想要删除目录文件夹 xff0c 类似于rm r的操作方式1 xff1a 可以使用system直接执行rm r的指令 xff0c system 34 rm r 34 方式2 xff1a 通过C语言内置的函数remove和rmdir
Git GUI 的使用

权限校验首先 xff0c 服务器需要身份识别一段RSA加密字符串启动GUI xff0c 菜单帮助 Step1 创建密钥 Generate SSH KEY Step2 添加密钥去你的代码托管服务器 xff0c 你的账号设置中 xff
推荐系统遇上深度学习(九)--评价指标AUC原理及实践

欢迎关注天善智能 xff0c 我们是专注于商业智能BI xff0c 人工智能AI xff0c 大数据分析与挖掘领域的垂直社区 xff0c 学习 xff0c 问答求职一站式搞定 xff01 对商业智能BI 大数据分析挖掘机器学习 xff0

推荐系统遇上深度学习(九)--评价指标AUC原理及实践

推荐系统遇上深度学习(九)--评价指标AUC原理及实践 的相关文章

随机推荐

热门标签

推荐系统遇上深度学习(九)--评价指标AUC原理及实践的相关文章