【半监督学习】3、PseCo | FPN 错位对齐的高效半监督目标检测器_办公生活

创始人

2025-05-29 17:06:06

论文：PseCo: Pseudo Labeling and Consistency Training for Semi-Supervised Object Detection

代码：https://github.com/ligang-cs/PseCo

出处：ECCV 2022 | 南京科技大学商汤

一、背景

现阶段图像分类、目标检测等任务的效果都取得了很大的进展，这很大程度上依赖于大量标注好的数据。

但是大量的数据标注非常耗时且昂贵，尤其是目标检测任务，需要很严格精细的标注。

所以，使用未标注的数据来提升模型效果的半监督学习就被提出来，可以同时使用标注数据和未标注数据来进行模型训练。

半监督图像分类（Semi-Supervised for Image Classification，SSIC），对未标记数据的学习可以分为两类：

还有一些方法如 FixMatch [19]，FlexMatch [28] 试图将这两种技术结合到一个框架中来提升效果

半监督目标检测（ Semi-Supervised Object DetectionS，SOD）中，一些工作借鉴了 SSIC 的关键技术（如伪标记、一致性训练），并将其直接应用于SSOD，但效果不尽如意。原因主要有两点：

本文的贡献：

提出了一个 SSOD 框架（PSEudo labeling and COnsistency training，PseCo），将目标检测属性集成到 SSOD 中，使得伪标签和一致性训练能更好的用于目标检测任务

在这里插入图片描述

PseCo 的整体架构如图 2 所示，在未标记的数据中，PseCo 由以下两部分构成：

在这里插入图片描述

本文使用 Faster RCNN 作为基础检测框架

使用 Teacher-student 训练模式，教师模型是通过对学生模型进行指数移动平均（Exponential Moving Average，EMA）得到的，教师网络和学生网络的结构完全相同。学生网络使用梯度更新来训练，教师网络根据学生网络来更新且无需参与训练。

整体过程如下：

使用定义好的采样率来从标注数据和未标注数据中采用，得到一个 batch 的数据输入网络进行训练
对标注数据：送入学生网络进行学习，并得到监督学习 loss，Ll=Lclsl+LreglL_l=L^l_{cls} + L^l_{reg}Ll=Lclsl+Lregl
对未标注数据：
- 进行弱数据增强后送入教师网络进行学习，生成伪标签
- 进行强数据增强后送入学生网络进行学习，学习伪标签
- 根据学生网络和教师网络的预测结果，得到半监督学习 loss：Lu=LclsuL_u = L^u_{cls}Lu=Lclsu
然后计算总体的 loss： L=Ll+LuL = L_l + L_uL=Ll+Lu，用于指导梯度更新来更新学生网络的权重
最后，使用指数移动平均来更新教师网络权重

每次训练根据抽取比例进行随机抽取标注数据和未标注数据：

对标注数据：
- student model 按正常模式训练，用 gt box 来监督其训练，Ll=Lclsl+LreglL^l = L_{cls}^l+L_{reg}^lLl=Lclsl+Lregl
对未标注数据：

弱数据增强后送入教师模型生成伪标签，强数据增强后送入学生网络学习伪标签，且由于作者认为分类和回归没有强联系，即分类好不一定回归好，则对未标注数据舍弃了回归 loss，只使用分类 focal loss： Lu=LclsuL^u = L^u_{cls}Lu=Lclsu
- 首先，使用弱数据增强（水平翻转、随机调整大小等），然后输入教师模型进行伪标签生成（也就是让教师模型输出预测结果，毕竟教师模型是比较大的，能力较强，对学生网络有很大的指导作用的）。此外，考虑到在使用了 NMS 后的伪标签（检测框）也会很密集，故此又设置了一个分数阈值 τ\tauτ，只保留分数高于阈值的框作为伪标签
- 之后，对输入训练数据进行强增强（如切割、旋转、亮度抖动等），生成学生模型的训练样本，对学习模型进行训练
- 最后，由于好的分类和好的定位没有强关联，所以作者不对未标记数据进行位置回归，而且实验也能证明对未标记的数据进行位置回归的话也会导致训练不稳定，所以作者对无标签数据没有使用回归 loss，只使用了分类 Focal loss

前景和背景的数量不平衡问题：

如何解决前景和背景的数量不平衡问题：

对未标记的数据，分类 loss 使用类似于 Unbiased Teacher[14] 中的方法，将 CE loss 替换成 Focal loss，且 αt\alpha_tαt 和 γ\gammaγ 和原始论文中一样
标记数据和未标记数据的总体 loss 为 L=Ll+βLuL = L^l+\beta L^uL=Ll+βLu，其中 β\betaβ 被用于控制未标记数据的权重

Noisy Pseudo Box Learning

在 SSOD 中，伪标签包含类别和位置两种信息

伪标签的类别得分只能表示其类别的置信度，无法保证框位置的质量，如果伪标签的框位置不精确的话就会拉低模型的效果，所以本文使用下面两种方法来减少位置对 label assign 和回归任务的损害：

1、Prediction-guided Label Assignment

Faster RCNN 中的 label assignment 是基于 IoU 的方法，将和 gt 的 IoU 大于阈值（0.7）的 box 置位正样本。

在半监督学习中，gt 就是生成的伪标签。

该做法的前提是假设 gt 的框位置非常的准确，所以方法不适合于未标记的数据，可能会导致一些低质量的 proposal 被分配为正样本。

一个示例如图 1c 所示，一个和真实 gt 的 IoU 为 0.39 的 proposal 被分配为正样本了。

为了解决这个问题，作者提出了 PLA（Prediction-guided Label Assignment）：

将教师模型的预测作为辅助信息，且降低对 IoU 的依赖
在 Teacher-Student 训练模式下，不仅仅教师网络预测结果 NMS 之后的框可以做伪标签，NMS 之前的框也可以做伪标签，用于指导学生模型的训练。
作者将教师网络生成的 RPN 和学生网络共享，那么教师网络在这些 proposal 上的预测结果就可以很方便的迁移到学生网络
为了更好的衡量 proposal 的质量 q，同时使用教师网络的分类得分和定位预测来作为衡量方法，即 q=sα×u1−αq = s^{\alpha} \times u^{1-\alpha}q=sα×u1−α，s 是 RPN 输出的前景得分，u 是 RPN 预测的 proposal 和 gt 的 IoU。α\alphaα 控制 s 和 u 对结果的贡献程度。

如何在未标记数据上使用呢：