AUC是推荐系统中最常用的模型评价指标。基础概念要常看常新,最近复习了一遍AUC的概念,在此做个笔记。本文力求简洁系统地理解AUC的概念和计算方法,AUC在推荐/广告领域的局限性以及解决这一问题的另一个指标:Group AUC(GAUC)
1. 分类任务与混淆矩阵
认识auc的第一步,是看懂混淆矩阵:
- True/False代表预测的正确/错误; Positive/Negative代表预测值为1/0.
- TP是真1;FP是假1;FN是假0; TN是真0。
- 真阳率:
T
P
R
=
T
P
T
P
+
F
N
TPR = \frac{TP}{TP+FN}
TPR=TP+FNTP,正样本被预测为1的概率;
- 假阳率:
F
P
R
=
F
P
F
P
+
T
N
FPR = \frac{FP}{FP+TN}
FPR=FP+TNFP,负样本被预测为1的概率;
2. ROC曲线与AUC
-
以x轴为FPR, y轴为TPR,做出图称为ROC曲线
-
AUC的定义:Area Under ROC Curve,即ROC曲线下的面积
-
AUC的意义:随机抽取一对正负样本,AUC是把正样本预测为1的概率大于把负样本预测为1的概率的概率。这句话有点拗口,用公式写就是:
A
U
C
=
P
(
P
正
>
P
负
)
(1)
AUC = P(P_{正}>P_{负})\tag1
AUC=P(P正>P负)(1)
其中
P
正
P_正
P正指将该正样本预测为1的概率;
P
负
P_负
P负指将该负样本预测为1的概率;
-
当auc=0.5时,模型没有分类能力,完全是随机猜测;auc>0.5时,把1预测为1的概率,比把0预测为1的概率大,说明模型有一定的分类能力。当auc<0.5时,把模型的预测类别取反,即可得到auc>0.5的结果。
-
auc的最大值为1,此时TPR恒等于1,即正样本永远会被预测正确
-
关于ROC曲线如何作图,请参考这篇文章
-
AUC的优势:能够综合考虑到正例和负例,因此可以应对样本不均衡的情况。
-
如何求解AUC:两种求解公式
-
A
U
C
=
∑
M
∗
N
I
(
P
正
,
P
负
)
M
∗
N
,
其
中
I
(
P
正
,
P
负
)
=
{
1
,
P
正
>
P
负
0.5
,
P
正
=
P
负
0
,
P
正
<
P
负
(2)
AUC=\frac{\sum_{M*N} I(P_{正},P_{负})}{M*N}, 其中I(P_{正},P_{负})=\left\{\begin{aligned}1, & P_{正}>P_{负} \\0.5, & P_{正}=P_{负}\\0, & P_{正}<P_{负}\end{aligned}\right.\tag2
AUC=M∗N∑M∗NI(P正,P负),其中I(P正,P负)=⎩⎪⎨⎪⎧1,0.5,0,P正>P负P正=P负P正<P负(2)
其中M、N分别为正、负样本数。(2)式中的求和是在M+N个总样本中,取出M*N个正负样本对,然后计算
I
(
P
正
,
P
负
)
I(P_{正},P_{负})
I(P正,P负)
-
A
U
C
=
∑
i
n
s
i
∈
正
例
r
a
n
k
i
n
s
i
−
M
∗
(
M
+
1
)
2
M
∗
N
(3)
AUC=\frac{\sum_{ins_i \in 正例} rank_{ins_i}-\frac{M*(M+1)}{2}}{M*N}\tag3
AUC=M∗N∑insi∈正例rankinsi−2M∗(M+1)(3)
其中M、N分别为正、负样本数。
r
a
n
k
i
n
s
i
rank_{ins_i}
rankinsi是第
i
i
i条样本
i
n
s
i
ins_i
insi的序号(概率得分从小到大排序,排在第
r
a
n
k
rank
rank个位置),
i
n
s
i
∈
正
例
ins_i \in 正例
insi∈正例 表示只把正样本的序号加起来。
3. GAUC:Group AUC
-
为什么要引入GAUC:因为AUC有时候不能满足推荐/广告系统中用户个性化的需求
举个栗子:(引用自https://blog.csdn.net/hnu2012/article/details/87892368)
假设现有两个用户甲和乙,一共有5个样本其中+表示正样本,-表示负样本。现有两个模型A和B,对5个样本的predict score按从小到大排序如下:
模型A | 甲- | 甲+ | 乙- | 甲+ | 乙+ |
---|
模型B | 甲- | 甲+ | 甲+ | 乙- | 乙+ |
从以上模型预测结果可以看出,对于用户甲的样本,模型A和B对甲的正样本打分都比其负样本高;对于用户乙的样本也是如此,因此分别对于用户甲和乙来说,这两个模型的效果是一样好的。
但这两个模型的AUC如何呢?根据公式(3)计算,
A
U
C
A
=
0.833
,
A
U
C
B
=
0.667
AUC_A = 0.833, AUC_B = 0.667
AUCA=0.833,AUCB=0.667. 我们发现AUC在这个场景下不准了。这是因为,AUC是对于全体样本排序后计算的一个值,反映了模型对于整体样本的排序能力。但用户推荐是一个个性化的场景,不同用户之间的商品排序不好放在一起比较。因此阿里妈妈团队使用了Group AUC来作为另一个评价指标。GAUC即先计算各个用户自己的AUC,然后加权平均,公式如下:
G
A
U
C
=
∑
u
i
w
u
i
∗
A
U
C
u
i
∑
w
u
i
(4)
GAUC = \frac {\sum_{u_i} w_{u_i}*AUC_{u_i}}{\sum w_{u_i}}\tag4
GAUC=∑wui∑uiwui∗AUCui(4)
实际计算时,权重可以设为每个用户view或click的次数,并且会滤掉单个用户全是正样本或全是负样本的情况。
参考文献
- https://www.zhihu.com/question/39840928?from=profile_question_card
- https://blog.csdn.net/hnu2012/article/details/87892368
- https://blog.csdn.net/qq_22238533/article/details/78666436
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)