华中科技大学在读博士方杰民:MSG-Transformer——高分辨率视觉任务中的新型Transformer

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

随着PVT和Swin Transformer的成功,让我们看到了Transformer在视觉任务上的巨大前景。PVT的核心是金字塔结构,同时通过对attention的keys和values进行downsample来进一步减少计算量,但是其计算复杂度依然和图像大小的平方成正比。而Swin Transformer在金字塔结构基础上提出了window attention,这其实本质上是一种local attention,并通过shifted window来建立cross-window的关系,其计算复杂度和图像大小成正比。基于local attention的模型计算复杂低,但是也丧失了global attention的全局感受野建模能力。

Transformer要应用到更广泛的视觉任务中,往往无法避免高分辨率的场景。然而,传统Transformer结构在高分辨数据上的计算开销极大。华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。

5月24日,「AI新青年讲座」第18讲邀请到MSG Transformer一作、华中科技大学人工智能研究院在读博士方杰民参与,主讲《MSG-Transformer:高分辨率视觉任务中的新型Transformer架构》。

讲者

方杰民,华中科技大学人工智能研究院/电信学院在读博士,师从刘文予教授和王兴刚教授;研究方向主要集中于神经网络架构层面的高效深度学习,曾在TPAMI、CVPR、ICLR、ICCV、NeurIPS等期刊和会议上发表研究论文。

第18讲

主 题
《MSG-Transformer:高分辨率视觉任务中的新型Transformer架构》

提 纲

1、视觉Transformer的研究与发展
2、面向视觉高分辨率场景的多层级Transformer设计
3、基于信使Tokens高效交换局部信息的MSG-Transformer
4、未来Transformer的应用前景和发展趋势

直 播 信 息

直播时间:5月24日19:00
直播地点:智东西公开课知识店铺

成果

MSG-Transformer:《 MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens》
论文链接:https://arxiv.org/abs/2105.15168.pdf
开源地址:https://github.com/hustvl/MSG-Transformer