推荐系统评价指标：AUC和GAUC

2023-05-16

AUC是推荐系统中最常用的模型评价指标。基础概念要常看常新，最近复习了一遍AUC的概念，在此做个笔记。本文力求简洁系统地理解AUC的概念和计算方法，AUC在推荐/广告领域的局限性以及解决这一问题的另一个指标：Group AUC(GAUC)

1. 分类任务与混淆矩阵

认识auc的第一步，是看懂混淆矩阵：

预测\真实	1	0
1	TP	FP
0	FN	TN

True/False代表预测的正确/错误； Positive/Negative代表预测值为1/0.
TP是真1；FP是假1；FN是假0； TN是真0。
真阳率： T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP，正样本被预测为1的概率；
假阳率： F P R = F P F P + T N FPR = \frac{FP}{FP+TN} FPR=FP+TNFP，负样本被预测为1的概率；

2. ROC曲线与AUC

以x轴为FPR, y轴为TPR，做出图称为ROC曲线
AUC的定义：Area Under ROC Curve，即ROC曲线下的面积
AUC的意义：随机抽取一对正负样本，AUC是把正样本预测为1的概率大于把负样本预测为1的概率的概率。这句话有点拗口，用公式写就是：
A U C = P ( P 正 > P 负 ) (1) AUC = P(P_{正}>P_{负})\tag1 AUC=P(P正>P负)(1)
其中 P 正 P_正 P正指将该正样本预测为1的概率； P 负 P_负 P负指将该负样本预测为1的概率；
当auc=0.5时，模型没有分类能力，完全是随机猜测；auc>0.5时，把1预测为1的概率，比把0预测为1的概率大，说明模型有一定的分类能力。当auc<0.5时，把模型的预测类别取反，即可得到auc>0.5的结果。
auc的最大值为1，此时TPR恒等于1，即正样本永远会被预测正确
关于ROC曲线如何作图，请参考这篇文章
AUC的优势：能够综合考虑到正例和负例，因此可以应对样本不均衡的情况。
如何求解AUC：两种求解公式
- A U C = ∑ M ∗ N I ( P 正 , P 负 ) M ∗ N , 其中 I ( P 正 , P 负 ) = { 1 , P 正 > P 负 0.5 , P 正 = P 负 0 , P 正 < P 负 (2) AUC=\frac{\sum_{M*N} I(P_{正},P_{负})}{M*N}, 其中I(P_{正},P_{负})=\left\{\begin{aligned}1, & P_{正}>P_{负} \\0.5, & P_{正}=P_{负}\\0, & P_{正}<P_{负}\end{aligned}\right.\tag2 AUC=M∗N∑M∗NI(P正,P负),其中I(P正,P负)=⎩⎪⎨⎪⎧1,0.5,0,P正>P负P正=P负P正<P负(2)
  
  其中M、N分别为正、负样本数。(2)式中的求和是在M+N个总样本中，取出M*N个正负样本对，然后计算 I ( P 正 , P 负 ) I(P_{正},P_{负}) I(P正,P负)
- A U C = ∑ i n s i ∈ 正例 r a n k i n s i − M ∗ ( M + 1 ) 2 M ∗ N (3) AUC=\frac{\sum_{ins_i \in 正例} rank_{ins_i}-\frac{M*(M+1)}{2}}{M*N}\tag3 AUC=M∗N∑insi∈正例rankinsi−2M∗(M+1)(3)
  
  其中M、N分别为正、负样本数。 r a n k i n s i rank_{ins_i} rankinsi是第 i i i条样本 i n s i ins_i insi的序号（概率得分从小到大排序，排在第 r a n k rank rank个位置）， i n s i ∈ 正例 ins_i \in 正例 insi∈正例表示只把正样本的序号加起来。

3. GAUC：Group AUC

为什么要引入GAUC：因为AUC有时候不能满足推荐/广告系统中用户个性化的需求

举个栗子：（引用自https://blog.csdn.net/hnu2012/article/details/87892368）

假设现有两个用户甲和乙，一共有5个样本其中+表示正样本，-表示负样本。现有两个模型A和B，对5个样本的predict score按从小到大排序如下：

模型A 甲- 甲+ 乙- 甲+ 乙+
模型B 甲- 甲+ 甲+ 乙- 乙+
从以上模型预测结果可以看出，对于用户甲的样本，模型A和B对甲的正样本打分都比其负样本高；对于用户乙的样本也是如此，因此分别对于用户甲和乙来说，这两个模型的效果是一样好的。

但这两个模型的AUC如何呢？根据公式(3)计算， A U C A = 0.833 , A U C B = 0.667 AUC_A = 0.833, AUC_B = 0.667 AUCA=0.833,AUCB=0.667. 我们发现AUC在这个场景下不准了。这是因为，AUC是对于全体样本排序后计算的一个值，反映了模型对于整体样本的排序能力。但用户推荐是一个个性化的场景，不同用户之间的商品排序不好放在一起比较。因此阿里妈妈团队使用了Group AUC来作为另一个评价指标。GAUC即先计算各个用户自己的AUC，然后加权平均，公式如下：
G A U C = ∑ u i w u i ∗ A U C u i ∑ w u i (4) GAUC = \frac {\sum_{u_i} w_{u_i}*AUC_{u_i}}{\sum w_{u_i}}\tag4 GAUC=∑wui∑uiwui∗AUCui(4)

实际计算时，权重可以设为每个用户view或click的次数，并且会滤掉单个用户全是正样本或全是负样本的情况。

模型A	甲-	甲+	乙-	甲+	乙+
模型B	甲-	甲+	甲+	乙-	乙+

参考文献

https://www.zhihu.com/question/39840928?from=profile_question_card
https://blog.csdn.net/hnu2012/article/details/87892368
https://blog.csdn.net/qq_22238533/article/details/78666436

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AUC

GAUC

推荐系统评价指标

推荐系统评价指标：AUC和GAUC 的相关文章

推荐系统评价指标：AUC和GAUC

AUC是推荐系统中最常用的模型评价指标基础概念要常看常新 xff0c 最近复习了一遍AUC的概念 xff0c 在此做个笔记本文力求简洁系统地理解AUC的概念和计算方法 xff0c AUC在推荐广告领域的局限性以及解决这一问题的另一个指
推荐算法评价指标(ACC、查全率、查准率、F1-Score、ROC、AUC,P-R)

文章目录混淆矩阵二级指标三级指标F1 ScoreROC AUC PR曲线推荐系统的评价指标很多 xff0c 今天介绍 xff1a 准确率 ACC 查准率 P精确率查全率 R召回率 F1 score AUC值 xff0c ROC曲线 P
推荐系统之AUC指标的一些理解

以下是在一些整理的和自己的关于AUC的理解 1 AUC和GAUC的区别 auc反映的是整体样本间的一个排序能力在计算广告领域实际要衡量的是不同用户对不同广告之间的排序能力因此实际应该更关注的是同一个用户对不同广告间的排序能力 GAUC
推荐系统之ROC和AUC详解

前言这个绝对是重量级内容了 xff0c 也是很基础的东西对于模型来讲 xff0c 不同的阈值会有不同的泛化能力 xff0c 这时候 xff0c 如果想比较两个模型的泛化能力 xff0c 这个阈值的高低也会受到影响 xff0c 所以就需要
推荐系统评价指标/ROC/AUC（附代码）

推荐系统评价指标精确率 xff1a 分类正确的正样本数分类器判定为正样本数召回率 xff1a 分类正确的正样本数真正的正样本数在排序问题中 xff0c Top N就是模型判定的正样本 xff0c 然后计算前N个位置上的准确率Pre
机器学习推荐系统评价指标之AUC

机器学习推荐系统评价指标之AUC 综述AUC的计算过程AUC的优势综述 AUC是机器学习模型中常见评价指标 xff0c 在推荐系统中也十分常见和常见的评价指标Acc xff0c P xff0c R相比 xff0c AUC具备一定的优势
准确率（Accuracy）、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC的理解

一准确率精确率召回率和 F 值是选出目标的重要评价指标不妨看看这些指标的定义先 1 若一个实例是正类但是被预测成为正类即为真正类 True Postive TP 2 若一个实例是负类但是被预测成为负类即为真负类 True
将 TensorFlow 损失全局目标 (recall_at_ precision_loss) 与 Keras（而非指标）结合使用

背景我有一个有 5 个标签的多标签分类问题例如 1 0 1 1 0 因此我希望我的模型能够改进固定召回率精确召回率 AUC 或 ROC AUC 等指标使用损失函数没有意义例如binary crossentropy 这与我想要优化
Tensorflow 1.4 tf.metrics.auc 用于AUC计算

我正在尝试登录AUC during 训练时间我的模型根据文档 tf metric auc需要一个label and predictions 两者形状相同但就我的二元分类而言 label is a 一维的张量仅包含类和predicti
如何在Python中计算One Class SVM的AUC？

我在 python 中绘制 OneClassSVM 的 AUC 图时遇到困难我使用 sklearn 生成混淆矩阵例如 tp fp fn tn with fn tn 0 from sklearn metrics import roc cu
使用 ROCR 和 pROC (R) 计算平均 AUC 的差异

我正在使用来自 SVM RFE 模型的交叉验证数据 10 倍重复 5 次 caret包裹我知道caret包适用于pROC计算指标时包但我需要使用ROCR包以获得平均 ROC 然而我注意到使用每个包时的平均 AUC 值并不相同所以我不
如何使用 ROCR 包计算 AUC

我已经安装了 SVM 模型并使用 ROCR 包创建了 ROC 曲线如何计算曲线下面积 AUC set seed 1 tune out tune svm Negative Positive data trainSparse kernel r
在 R 中为逻辑回归模型绘制多条 ROC 曲线

我有一个逻辑回归模型使用 R 作为 fit6 lt glm formula survived ascore gini failed data records family binomial summary fit6 我在用着pROC用于绘
根据 R 中的交叉验证（训练）数据绘制 ROC 曲线

我想知道是否有一种方法可以从使用 SVM RFE 模型生成的交叉验证数据中绘制平均 ROC 曲线caret包裹我的结果是 Recursive feature selection Outer resampling method Cross
在单个 ROC 图上绘制线性判别分析、分类树和朴素贝叶斯曲线

数据显示在页面的最底部称为 LDA scores 这是一个分类任务我在数据集上执行了三种监督机器学习分类技术提供所有编码以显示这些 ROC 曲线是如何生成的我很抱歉提出了一个有问题的问题但近两周来我一直在尝试使用不同的代码组合来解
StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？

我正在尝试理解predictPython statsmodels 中用于 Logit 模型的函数它的文档是here https www statsmodels org stable generated statsmodels discre
roc_auc_score 和plot_roc_curve 结果不同

我正在训练一个RandomForestClassifier sklearn 预测信用卡欺诈然后当我测试模型并检查 rocauc 分数时我在使用时会得到不同的值roc auc score and plot roc curve roc au
sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异

我分别从 sklearn 的 RandomForestClassifier 和 roc curve auc 方法收到不同的 ROC AUC 分数以下代码得到了 0 878 的 ROC AUC 即 gs best score def tra
插入符 rfe + sum 与 ROC 中的特征选择

我一直在尝试使用插入符包应用递归功能选择我需要的是 ref 使用 AUC 作为性能衡量标准经过一个月的谷歌搜索后我无法让该过程正常运行这是我使用过的代码 library caret library doMC registerDoMC
如何用tensorflow计算AUC？

我已经使用 Tensorflow 构建了一个二元分类器现在我想使用 AUC 和准确性来评估分类器就准确性而言我可以轻松地这样做 X tf placeholder float None n input y tf placeholder

随机推荐