UTAustin博士涂正中:玩转多轴注意力机制——基于视觉Transformer和MLP的高效模型设计

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

都2022年了,何必还执著于在卷积神经网络中调参内卷。Vision Transformer (ViT)发表才不过一年多,就已经在各大视觉领域”鲨疯了“!ViT、Mixer、gMLP等各种奇技淫巧应运而生,这些新的视觉骨干网络带领了一波从根本上区别于传统卷积神经网络(CNN)架构设计的模式转变(paradigm shift),即全局模型(Global Models or Non-Local Networks)—— 我们不再依赖于长期以来人们对二维图像的先验知识(prior):平移不变性和局部依赖;而是无脑使用全局感受野和超大规模数据预训练的”钞能力“。

来自德克萨斯奥斯汀分校以及谷歌研究院的涂正中博士等人为了解决传统ViT模型中自注意力机制在图像大小方面缺乏的可扩展性,提出了一个简单的局部、全局自注意力与卷积三者混合的大一统模型多轴Transformer,称之为MaxViT(Multi-Axis Vision Transformer)。作为视觉任务的骨干网络,MaxViT允许任意分辨率的输入,在ImageNet上其性能远超ConvNeXt、Swin Transformer等主流模型。

针对Transformer/MLP模型的不灵活性、高空间复杂度、以及无法自适应的应用在不同分辨率的问题,涂正中博士等人在CVPR 2022上提出了最新的基于MLP的UNet型骨干网络,,同时实现了全局、局部感受野,并且可以在线性复杂度下直接应用在高分辨图片上,具有“全卷积”特性,可以即插即用。也是第一次把最近爆火的MLP应用在底层视觉,在五大图像处理任务(去噪,去模糊,去雨,去雾,增强)超过10个数据集达到SOTA性能,该论文成果也获得了CVPR 2022 Oral与最佳论文提名。

同时,涂正中博士联合加州大学洛杉矶分校徐润生博士等人将多轴注意力机制应用于BEV地图理解中,并设计出了一个融合轴向注意力(fused axial attention,FAX)模块,该模块可以捕捉跨视图和智体的稀疏局部和全局空间交互。根据FAX模型设计的多智体多摄像机感知框架CoBEVT可以协同生成BEV地图预测。在V2V感知数据集OPV2V上的大量实验也表明,CoBEVT在协作BEV语义分割方面达到了最先进的性能。目前已经被CoRL 2022接收。

9月28日上午10点,「AI新青年讲座」第161讲,邀请到德克萨斯大学奥斯汀分校博士涂正中参与,主讲《玩转多轴注意力机制——基于视觉Transformer和MLP的高效模型设计》。

讲者

涂正中,德克萨斯大学奥斯汀分校博士;现任谷歌研究院工程师,师从美国工程院院士Alan Bovik教授。研究方向为视频质量评估,底层视觉,和骨干架构设计。目前作为第一作者在计算机视觉顶级会议或期刊CVPR、ECCV、TIP上发表论文多篇,曾获得CVPR 2022最佳论文提名奖,并多次担任著名计算机视觉会议CVPR、ECCV、TIP、TCSVT等审稿人,曾在YouTube、谷歌AI等机构实习。

第161讲

主 题
《玩转多轴注意力机制——基于视觉Transformer和MLP的高效模型设计》

提 纲
1、视觉Transformer与注意力机制
2、面向高级视觉任务的SOTA模型MaxViT解析
3、基于MLP的通用底层视觉类UNet骨干网络MAXIM
4、CoBEVT:稀疏Transformer协作BEV语义分割模型

直 播 信 息
直播时间:9月28日10:00
直播地点:智东西公开课知识店铺

成果
《MaxViT: Multi-Axis Vision Transformer》
《MAXIM: Multi-Axis MLP for Image Processing》
《CoBEVT: Cooperative Bird’s Eye View Semantic Segmentation with Sparse Transformers》

论文链接
https://arxiv.org/abs/2204.01697
https://arxiv.org/abs/2201.02973
https://arxiv.org/abs/2207.02202

 开源地址
https://github.com/google-research/maxvit
https://github.com/google-research/maxim
https://github.com/DerrickXuNu/CoBEVT