【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏

2023-11-18

【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏

【论文原文】：Scale-Equivalent Distillation for Semi-Supervised Object Detection

获取地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9880000
CSDN下载：https://download.csdn.net/download/qq_50757624/87413811

博主关键词： 半监督，知识蒸馏，目标检测

推荐相关论文：

-无

摘要：

最近的半监督目标检测（SS-OD）方法主要基于自我训练，即通过教师模型在未标记的数据上生成硬伪标签作为监督信号。尽管他们取得了一定的成功，但半监督学习中有限的标记数据扩大了目标检测的挑战。我们通过实证实验结果分析了这些方法遇到的挑战。我们发现大量的假阴性样本和较差的定位精度缺乏考虑。此外，物体大小的巨大差异和类不平衡（即背景和物体之间的极端比例）阻碍了现有技术的性能。此外，我们通过引入一种新颖的方法，即尺度等效蒸馏（SED）来克服这些挑战，这是一种简单而有效的端到端知识蒸馏框架，可应对较大的对象大小差异和类不平衡。与之前的作品相比，SED有几个吸引人的好处。（1） SED 强加一致性正则化来处理大规模方差问题。（2）SED缓解了假阴性样本的噪声问题和较差的定位精度。（3）重新加权策略可以隐式筛选未标注数据的潜在前景区域，以减少类失衡的影响。广泛的实验表明，SED在不同数据集上的表现始终优于最近最先进的方法，并具有显着的利润。例如，当在MS-COCO上使用10%和5%的标记数据时，它比监督对应物高出10 mAP以上。

关键词 ：半监督，知识蒸馏，目标检测，尺度等效。

简介：

深度神经网络在由大规模数据集驱动的监督学习框架下取得了强大的结果，例如 ImageNet [5]（约 1 万张标记图像）。然而，与分类不同，目标检测还涉及使用边界框定位对象。因此，用于目标检测的注释要昂贵得多，导致标记数据与分类几乎没有关系。最近，用于分类的半监督学习（SSL）受到了很多关注[28]，[2]，[29]，[33]，其结果与ImageNet上的完全监督模型相当。然而，半监督目标检测（SS-OD）比ImageNet分类上的SSL更具挑战性。最近的SS-OD方法通过利用有限的标记数据和大量未标记的数据来提高性能，但它们存在目标大小的巨大差异，大量的假阴性实例和类不平衡问题，如图1所示。
在这里插入图片描述

Fig. 1. The overall framework of SED.

ImageNet 分类模型的物体尺度变化范围很小，而 MS-COCO 数据集 [18] 的尺度变化在检测器的对象实例中变化很大。如图 2a 所示，MS-COCO 中实例尺度的标准差为 188.4 像素，而 ImageNet 中的实例尺度标准差为 56.7 像素（面积的平方根）。检测器应该是与物体位置一致的比例，这意味着不同大小的图像的预测应该是等效的[27]，[28]。然而，SS-OD中的现有技术[19]、[30]、[36]、[39]尚未考虑尺度一致性。我们观察到客观性得分存在差异，如图 2b 所示。前景锚点与背景锚点的比率随着分数距离变大而增加，这意味着模型对对象实例的不透明，而对不同大小的实例视而不见。这种不一致通常可以通过多尺度推理融合来缓解，这增加了计算成本，并且需要复杂的操作来融合结果。

此外，最近的SS-OD方法[19]，[29]在高数据场景中的性能适中，这是假阴性对象实例和较差的定位精度的结果。如图 2c 所示，当 IoU 设置为 0.1 和 0.3 时，重新调用分别下降到 0.5 和 0.9，这表明大多数前台实例都是假阴性样本。精度在IoU=0.9小于 0.2，说明边界框的位置不够准确。低于硬阈值的“漏报”对象实例会导致识别不一致。

另一个障碍是前景和背景样本高度不平衡。RetinaNet的前景与背景样本的比例约为1：25，000[17]。由于类不平衡问题，平等对待所有区域[32]会导致背景样本对梯度有显著贡献，如图4所示。将前景区域与具有压倒性背景区域的未标记数据区区分开来具有挑战性。

为了克服上述挑战，我们提出了尺度等效蒸馏（SED），这是一种简单而有效的端到端半监督学习框架，用于目标检测。由于尺度是低维语义流形的基本因素，我们设计了一个跨不同水平预测的尺度一致性正则化，作为大目标大小方差的解。此外，针对硬伪标签噪声对识别一致性有不利影响的问题，该文提出一种自蒸馏方法在不增加可学习参数的情况下提高泛化性能。由于阶级失衡问题，压倒性的背景samples削弱了我们方法的效果。我们实施重新加权策略，重点关注不同级别输出之间的不一致以及教师和学生检测器之间的不一致。因此，我们的重新加权方法避免了从未标记的数据中明确选择潜在的前景区域。

为了评估 SED 的有效性，我们对目标检测基准 Pascal-VOC [7] 和 MS-COCO [18] 进行了扩展实验。当在MS-COCO上使用10%和5%的标记数据时，我们的方法比监督对应物高出10 mAP以上。此外，我们的方法还使用基于单特征图和特征金字塔的单级和两级检测器进行了测试。

我们的贡献如下：（1）SED强加了尺度一致性正则化，以克服大规模方差挑战。（2） SED 减轻了由假阴性样本和不协调的边界框回归引起的噪声概率。（3）重新加权策略可以隐式地从未标记的数据中筛选潜在的前景区域，以减少类不平衡的影响。
在这里插入图片描述
Fig. 2. (a) For the COCO dataset, all the images are resized such that the short edge has 800 pixels while the long edge has less than 1333 pixels. For the ImageNet dataset, all the images are resized to 224×224 to calculate the statistics. The scale of object is represented as the square root of the area. We discuss the typical training input size for ImageNet classification and COCO detection tasks. (b) All the scores are predicted on COCO minival dataset by the retinanet detector with FPN and ResNet 50 backbone, which is trained with 10% COCO data. The score distance is the absolute difference between the predictions of the image in different sizes. The y-axis is the average number of anchors per image. © We predict pseudo-label on the rest of COCO training data with a converged Faster-RCNN detector (with FPN and ResNet50 backbone), trained with 10% COCO data. The low average recall and precision show that hard pseudo-label incur more noise with false negative samples.

【论文速递 | 精选】

论坛地址：https://bbs.csdn.net/forums/paper

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)