香港科技大学在读博士李峰:Transformer目标检测模型DERT的训练加速方法 | AI新青年讲座

自2020年下半年开始,视觉Transformer的研究热点达到了前所未有的高潮。而引爆CV圈Transformer热潮的两个代表性文章是DERT(目标检测)和ViT(图像分类)。Detection Transformer(DETR)将Transformer作为主干架构引入到目标检测框架中,有效地消除了对许多手工设计组件,如NMS、Anchor的需求。

DETR是将目标检测任务视为一种集合预测(set prediction)的问题,用CNN提取基础特征,送入Transformer做关系建模,得到的输出通过匈牙利匹配算法与图片上的Ground-truth做匹配。但由于匈牙利匹配算法的离散性和模型训练的随机性,导致了Ground-truth的匹配变成一个动态的、不稳定的过程。

香港科技大学李峰博士等人提出了一种利用去噪任务加速DETR模型训练的方法DN-DETR。该方法将Transformer的解码器送入带有噪声的真值框,并训练模型预测其原来的真值框,通过这种方式有效的解决DETR解码器匹配不稳定的问题,让模型收敛速度翻倍。同时,DN-DETR方法是通用的,可以通过添加几十行代码轻松地插入任何类似DETR的方法,从而实现显著的改进。

以Deformable DETR模型为例,在ResNet50 Backbone下,DN-Deformable-DETR在12 epoch结果达到43.4AP,50 epoch结果达到48.6AP,让Deformable DETR模型在12 epoch setting下就可以取得好的效果。目前,此论文已被选中为CVPR 2022 Oral。

6月10日,「AI新青年讲座」第124讲特邀香港科技大学在读博士李峰参与,主讲《Transformer目标检测模型DERT的训练加速方法》。

讲者

李峰,香港科技大学在读博士,由沈向洋教授和倪明选教授指导,感兴趣的方向是计算机视觉、目标检测和多模态学习,本科毕业于华南理工大学,在CVPR、ICIL等国际会议上发表了多篇论文。

主题

Transformer目标检测模型DERT的训练加速方法

提纲

1、Transformer目标检测模型DERT研究进展
2、DETR系列模型训练缓慢的问题
3、利用去噪任务实现DETR模型训练加速的方法DN-DETR
4、在DERT模型中的加速表现及应用泛化

直播信息

直播时间:6月10日19:00
直播地点:智东西公开课知识店铺

论文成果

论文名称:DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

论文地址:https://arxiv.org/pdf/2203.01305.pdf

代码地址:https://github.com/IDEA-opensource/DN-DETR