论文信息

  • 论文题目Toward Efficient Semi-Supervised Object Detection
    With Detection Transformer
  • 论文作者:Jiacheng Zhang , Jiaming Li , Xiangru Lin , Wei Zhang, Xiao Tan, Hongbo Gao(Member IEEE) , Jingdong Wang(Fellow IEEE) , Guanbin Li(Member IEEE)
  • 发表会议:IEEE TPAMI 2026
  • 代码链接 : https://github.com/JCZ404/Semi-DETR

论文主要贡献

  • 提出了Semi-DETR++,这是一个专为基于DETR的架构设计的半监督目标检测新框架。这是首个探索并明确在半监督目标检测任务中应用DETR所面临核心挑战的系统性研究。
  • 提出了一种阶段性混合匹配策略,该策略能从抗噪声的一对多分配动态过渡到标准的一对一分配。这该方法有效缓解了DETR框架中由噪声伪标签导致的训练低效问题,同时保留了其端到端推理的特性。
  • 提出了一种重解码查询一致性(RQC),这是一种专为基于查询的解码器设计的简单但有效的正则化方法。这一创新通过利用模型自身的解码输出来实现高效的一致性训练,无需进行复杂的查询选择和对应匹配。
  • 大量实验表明,在MS-COCO和PASCAL VOC基准测试的各种半监督目标检测设置中,Semi-DETR++达到了新的最先进水平,显著优于以往的方法。

问题

  • DETR固有的一对一分配机制对噪声伪标签高度敏感:当面对不完美的伪标签时,它往往会错误地将高质量的候选检测结果当作负样本,从而误导学习过程。

  • 基于查询的解码器架构使有效一致性正则化方案的设计变得复杂:基于注意力驱动的、动态的基于查询的解码器特性,使得在不同增强输入之间无法建立稳定的查询对应关系。

因此,伪标签一致性训练这两种有效的半监督学习技术,在应用于DETR架构时,其效果会受到严重削弱。

在这里插入图片描述
左图:分配策略的敏感性分析。固有的一对一(O2O)分配对真实框中的噪声更敏感。相比之下,传统的一对多(O2M)分配对噪声标签表现出更强的抵抗性。

右图:与传统的基于CNN的检测器相比,基于DETR的半监督目标检测(SSOD)中一致性训练问题的说明。

论文创新点

  • 提出了Semi-DETR++,这是一个用于基于DETR的高效端到端半监督目标检测的新型框架
  • 引入了一种阶段性混合匹配(SHM)策略。
  • 提出了一种简单但有效的重解码查询一致性(RQC)方案,以实现对基于查询的解码器的有效一致性正则化。

方法

整体框架

在这里插入图片描述
Semi-DETR++ 框架
基于经典的Mean-Teacher师生架构,同时融合了论文提出的两大创新组件:阶段式混合匹配(SHM)重解码查询一致性(RQC)


数据输入

  • 标注数据(黄色路径):带有标注框的图像(冲浪图的红框),用于计算监督损失 L s \mathcal{L}_{s} Ls
  • 未标注数据(蓝色路径):无标注的图像(长颈鹿图),通过数据增强生成两个视图,用于生成伪标签和一致性训练。

师生模型结构

  • Encoder(编码器):提取图像特征,输出编码特征。
  • Decoder(解码器):对编码特征进行解码,生成目标检测预测。
  • Re-Decoding(重解码):将解码器的预测结果和特征再次输入解码器。

  • 教师模型
    • 权重通过EMA从学生模型更新,生成稳定的伪标签。
    • 输出Dense Prediction(密集预测),经过NMS(非极大值抑制)和置信度阈值 ( δ \delta δ)筛选后,生成高质量Pseudo-labels(伪标签),用于监督学生模型。

  • 学生模型
    • 直接参与训练,接收三类损失信号更新参数。
阶段式混合匹配(SHM)

该方法将训练过程分为两个不同的阶段。在早期阶段,采用软一对多分配方式,以挽救可能被标签噪声抑制的高质量候选框,同时降低不可靠候选框的权重。
随着训练的推进,当伪标签变得更加可靠时,我们在后期阶段无缝过渡到标准的一对一匹配
这种设计逐步消除重复预测,从而在保留DETR端到端推理特性的同时,显著提高了在存在噪声情况下的训练鲁棒性和效率。

在这里插入图片描述

  1. 早期软一对多匹配
    训练初期伪标签噪声高,SHM为每个伪标签框分配多个正候选框,且通过分类分数+IoU的综合指标计算匹配质量,为候选框赋予不同权重——高质量候选框权重高,充分参与训练;低质量候选框权重低,其负面影响被削弱。解决了“高质量候选被误判为负样本”的优化冲突,让模型在噪声环境下也能稳定收敛。
  2. 后期一对一匹配
    随着训练推进,教师模型生成的伪标签精度持续提升,噪声几乎消失,此时SHM会切换回DETR原始的一对一匹配。这一阶段的核心作用,是让模型逐步学习“一个查询对应一个目标”的映射关系,自然消除重复预测,最终在推理阶段完全保留DETR无NMS、端到端的核心优势,实现“训练鲁棒性”和“推理效率”的双赢。

论文通过对比Max-IoU、ATSS等传统一对多匹配策略验证了SHM的优越性:传统匹配策略为锚框设计,适配DETR的稀疏查询时易出现目标覆盖不足、候选框质量不均的问题;而SHM的软一对多匹配结合分类和定位指标,能为每个伪标签分配数量足够、质量可控的正候选框,对伪标签噪声的鲁棒性远优于传统方法。

重解码查询一致性(RQC)

随着目标查询在解码器层中传播,它们会逐渐聚合越来越具有判别性的特征,并表现出强烈的局部解码行为,与特定的图像区域绑定。基于这一见解,RQC方案将来自最终解码器层的密集预测和相应的解码特征再次输入到教师解码器和学生解码器中。这些经过优化的特征充当了一种隐式指导,促使查询从相同的显著区域聚合上下文信息。然后,在这种“重解码”过程的输出之间应用一致性损失,以促进对解码局部性的学习。这巧妙地规避了对显式查询对应匹配的需求,为基于查询的架构提供了一种自然且有效的正则化机制。

在这里插入图片描述

  1. DETR的查询会随解码逐层“绑定固定区域”
    论文通过**解码不稳定性分数(DIS)**量化验证了一个关键特性,即越靠后的解码器层,每个查询会越稳定地绑定图像中的一个特定目标区域。
  2. 重解码实现“隐式指导”
    RQC利用上述特性,将教师和学生模型最终解码器层的密集预测和解码特征,再次输入各自的解码器进行 “重解码”。重解码的过程相当于让查询“基于已锁定的区域,再次聚合更精细的上下文特征”,这些特征会成为一种隐式指导,让师生模型聚焦于同一个目标的显著区域,无需手动指定。

请添加图片描述

左:解码局部性的量化验证

  • 纵轴Decoding Instability Score (DIS,解码不稳定性分数)分数越低,代表查询越稳定、越绑定固定目标区域
  • 横轴Dec. #1->2Dec. #5->6,对应DETR解码器的层间过渡(从第1层到第6层,共5次层间变化);
  • 柱形图Early/Middle/Late Stage(训练早/中/晚阶段)。
  1. 越深层,查询越稳定:从#1->2#5->6,所有阶段的DIS分数持续下降,证明DETR的查询在解码器层间传播时,会逐步聚合更具判别性的目标特征,越靠后的层,查询的局部解码行为越强,越稳定绑定特定目标区域。
  2. 训练越晚,查询越稳定:同一层间过渡下,Late Stage的DIS分数最低,Early Stage最高,证明模型训练越充分,查询的稳定性越强。
  3. 深层查询的稳定性强:到#5->6层间过渡时,所有阶段的DIS分数都接近0,说明深层查询几乎完全绑定了固定区域,为RQC的设计提供了量化依据。

右:两种一致性训练方案的对比

CQC:

  1. 输入教师和学生模型的dense prediction(密集预测),经过候选框筛选ROI-align(空间对齐),生成对齐的稀疏候选框
  2. DETR的查询是动态的,不同增强视图下,查询和目标的对应关系会发生交叉/错位(图中灰色交叉箭头);
  3. 因为查询对应关系不稳定,无法建立稳定的一一对应,无法做一致性训练;
  4. 需要ROIAlign、候选框筛选等繁琐操作,计算成本高,还会丢失监督信号。

RQC:

1.先做第一次常规解码,得到密集预测,再将第一次解码的特征作为隐式指导,输入解码器做重解码
2. 重解码后的查询,已经绑定了第一次锁定的目标区域,不同增强视图下,同一个查询对应同一个目标,不用手动匹配查询
3. 不需要候选框筛选、ROIAlign等操作,不丢失监督信号,计算成本降低;

损失函数

在这里插入图片描述
其中, L u n s u p c o n s \mathcal{L}_{unsup}^{cons} Lunsupcons是利用未标记数据计算的一致性损失。 L l a b e l \mathcal{L}_{label} Llabel是包含标记数据和未标记数据的标签监督损失在这里插入图片描述

实验分析

  • 与最先进方法的比较
    在这里插入图片描述
    MS-COCO基准测试 如表所示,SemiDETR++在MS-COCO基准测试的所有数据机制上都建立了新的最先进水平。
    在这里插入图片描述
    Pascal VOC基准测试:如表格所述,Semi-DETR++在PASCAL VOC基准测试中展现出稳定的性能。Semi-DETR++在两个评估指标上都以显著的优势超越了所有先前的半监督目标检测方法,进一步验证了其鲁棒性。

  • 将Semi-DETR++扩展到分割任务
    在这里插入图片描述
    在这里插入图片描述
    Semi-DETR++的多功能性进一步体现在其在半监督分割任务上的优异表现,如上两表所示,凸显了半监督学习框架的可迁移性。

  • 定性比较

  • 展示了Semi-DETR++在COCO-partial数据集上不同标记数据比例下的半监督目标检测可视化对比
    在这里插入图片描述
    Semi-DETR++((b)、(d))与基线方法((a)、©)的视觉对比。可以观察到,在外观相似和高遮挡等具有挑战性的情况下,Semi-DETR++的表现更优,这体现了其优越性。

  • 展示了Semi-DETR++在半监督实例分割中的性能在这里插入图片描述 在10%标记数据量的半监督实例分割任务中,Semi-DETR++与引导式蒸馏方法的可视化对比,其中Semi-DETR++生成了更完整、更精确的分割掩码。

消融实验

在这里插入图片描述
SHM与RQC结合使用时,会产生协同效应


在这里插入图片描述
训练时间评估曲线。(a)Semi-DETR/Semi-DETR++采用阶段性混合匹配,消除了早期阶段由噪声伪标签导致的低效训练,与简单的半监督基线相比,显著提高了训练效率。(b)新引入的重解码查询一致性进一步提升了收敛速度,且性能优于Semi-DETR。


在这里插入图片描述
超参数消融研究。(A)PL CONF.——用于过滤伪标签的置信度阈值。(B)FG CONF.——用于过滤预测以构建一致性查询的前景置信度阈值。(C)NUM POS.——在SHM的一对多分配过程中分配的正样本数量。(D)UNSUP. LOSS WEIGHT——未标记数据的损失权重。(E)O2M ITERS.——SHM训练过程中一对多分配的持续时间。


在这里插入图片描述
一致性查询来源及一致性损失形式的消融实验。“RANDOM”——随机查询,“CV”——跨视图查询,“RD”——重新解码查询。


在这里插入图片描述
解码器层上应用一致性的消融实验。一致性训练的性能在不同解码器层之间存在差异,应用于后期阶段时,性能始终较高。


在这里插入图片描述
骨干网络消融实验:表明该框架的有效性与骨干网络无关,凸显了其强大的泛化能力。

结论

本文研究了将检测Transformer(DETRs)应用于半监督目标检测(SSOD)时可能存在的问题。发现,基于DETR的半监督目标检测的主要挑战在于易受噪声影响的二分匹配,以及基于查询的解码范式不兼容所带来的一致性训练问题。为解决这些问题,本文提出了Semi-DETR++,这是首个基于检测Transformer的端到端半监督目标检测方法。为提高训练效率,Semi-DETR++设计了一种分阶段混合匹配策略,将精心设计的一对多分配策略固有的二分匹配以分阶段的方式相结合,从而在抵抗噪声伪标签的同时,保留DETRs宝贵的端到端推理特性。基于查询特征在逐层解码过程中会形成进化局部性这一见解,本文引入了重解码查询一致性训练方案,以解决基于查询的解码中缺乏确定性对应关系的问题,并实现对DETRs的高效一致性正则化。在COCO和PASCAL VOC基准数据集上的大量实验表明,Semi-DETR++大幅优于现有的半监督目标检测方法。此外,通过将该框架扩展到半监督分割任务(包括实例分割和语义分割),展示了其通用性,凸显了其泛化能力。

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐