清华大学在读博士刘世隆：基于动态锚框的DETR优化方法

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

Detection Transformer 2020年在ECCV被提出，作为一种新兴的目标检测方法，DETR以其简洁而优雅的框架获得了越来越多的关注。DETR能在常用的目标检测数据集上取得比Faster RCNN更好的性能，然而收敛速度却显著慢于基于CNN的检测器。

为了解决这个问题，后续有许多工作试图改进DETR，来实现更快的训练收敛和更好的性能。尽管取得了很多的成果，但query在DETR中的作用仍未被完全理解。

清华大学在读博士刘世隆等人研究了Transformer的解码器部分，认为解码器的交叉注意力模块是导致收敛缓慢的原因，并提出了一种新颖的解码器设计，即使用动态锚框建模query实现模型优化的方法，同时也对query的作用有了更深入的理解。DAB-DETR使用锚框的大小来调节交叉注意力，为池化特征提供更好的位置先验，加速DETR的训练收敛。

结果表明，在COCO对象检测基准的相同设置下，DAB-DETR在类似DETR模型中取得了当前最好的结果，当使用ResNet50作为骨干时，DAB-DETR在50 epoch结果达到48.7AP。

8月10日晚上7点，「AI新青年讲座」第144讲邀请到清华大学在读博士刘世隆参与，主讲《基于动态锚框的DETR优化方法》。

讲者

刘世隆，清华大学在读博士，粤港澳大湾区数字经济研究院（IDEA）实习生，研究兴趣为计算机视觉，尤其关注目标检测、多模态理解等工作，目前在ICLR,CVPR等会议发表多篇工作。

主题

基于动态锚框的DETR优化方法

提纲

1、Transformer目标检测（DETR）模型优化的研究

2、针对Transformer解码器的设计方法

3、利用动态锚框设计解码器实现DETR优化DAB-DETR

4、以ResNet50为骨干的DAB-DETR有效性验证

直播信息

直播时间：8月10日19:00

直播地点：智东西公开课知识店铺

成果

DAB-DETR：《DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR》

论文链接：https://arxiv.org/pdf/2201.12329.pdf

开源代码：https://github.com/IDEA-opensource/DAB-DETR

相关推荐