北京大学智能学院在读博士唐业辉:量子启发的新型视觉主干模型WaveMLP | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

近年来,计算机视觉领域的新型架构层出不穷,包括视觉 Transformer、MLP 等。它们在很多任务上都取得了超越 CNN 的性能,受到广泛关注。其中,视觉 MLP 具有极其简单的架构,仅由多层感知器(MLP)堆叠而成。与 CNN 和 Transformer 相比,这些简洁的 MLP 架构引入了更少的归纳偏置,具有更强的泛化性能。

然而,现有视觉 MLP 架构的性能依然弱于 CNN 和 Transformer。受量子力学中波粒二象性的启发,来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种新型视觉 MLP 架构——Wave-MLP。

波粒二象性是量子力学中的一个基本属性,指的是所有的个体(比如电子、光子、原子等)都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性,幅值表示一个波可能达到的最大强度,相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波(比如,德布罗意波)的形式来表示,可以更完备地描述微观粒子的运动状态。

Wave-MLP受量子力学中波粒二象性的启发,将 MLP 中每个图像块 (Token) 表示成波函数的形式。相比现有的视觉 Transformer 和 MLP 架构,Wave-MLP 有着明显的性能优势。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率,比相似计算代价的 Swin-T 高 1.3 个点。此外,Wave-MLP 也可以推广到目标检测和语义分割等下游任务,展现出强大的泛化性能。

6月7日,「AI新青年讲座」第122讲邀请到Wave-MLP一作、北京大学智能学院在读博士唐业辉参与,主讲《量子启发的新型视觉主干模型WaveMLP》。

讲者
唐业辉,北京大学智能学院在读博士,主要研究方向是面向计算机视觉的主干模型设计及高效部署;在NeurIPS、CVPR、ICCV等顶级会议上发表多篇论文。

第122讲

主 题
《量子启发的新型视觉主干模型WaveMLP》

提 纲
1、视觉领域的新型架构研究
2、基于多层感知器的简洁型视觉MLP架构
3、受量子力学启发的新型视觉MLP架构WaveMLP
4、拓展:极简的视觉主干模型

直 播 信 息
直播时间:6月7日19:00
直播地点:智东西公开课知识店铺

成果
WaveMLP:《An Image Patch is a Wave: Quantum Inspired Vision MLP》
论文链接:https://arxiv.org/abs/2111.12294.pdf
PyTorch 代码:https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
MindSpore 代码:https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp