北京大学智能学院在读博士唐业辉：量子启发的新型视觉主干模型WaveMLP

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

近年来，计算机视觉领域的新型架构层出不穷，包括视觉 Transformer、MLP 等。它们在很多任务上都取得了超越 CNN 的性能，受到广泛关注。其中，视觉 MLP 具有极其简单的架构，仅由多层感知器（MLP）堆叠而成。与 CNN 和 Transformer 相比，这些简洁的 MLP 架构引入了更少的归纳偏置，具有更强的泛化性能。

然而，现有视觉 MLP 架构的性能依然弱于 CNN 和 Transformer。受量子力学中波粒二象性的启发，来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种新型视觉 MLP 架构——Wave-MLP。

波粒二象性是量子力学中的一个基本属性，指的是所有的个体（比如电子、光子、原子等）都可以同时使用粒子的术语和波的术语来描述。一个波通常包括幅值和相位两个属性，幅值表示一个波可能达到的最大强度，相位指示着当前处在一个周期的哪个位置。将一个经典意义上的粒子用波（比如，德布罗意波）的形式来表示，可以更完备地描述微观粒子的运动状态。

Wave-MLP受量子力学中波粒二象性的启发，将 MLP 中每个图像块 (Token) 表示成波函数的形式。相比现有的视觉 Transformer 和 MLP 架构，Wave-MLP 有着明显的性能优势。在 ImageNet，Wave-MLP-S 模型上以 4.5G FLOPs 实现了 82.6% 的 top-1 准确率，比相似计算代价的 Swin-T 高 1.3 个点。此外，Wave-MLP 也可以推广到目标检测和语义分割等下游任务，展现出强大的泛化性能。

6月7日，「AI新青年讲座」第122讲邀请到Wave-MLP一作、北京大学智能学院在读博士唐业辉参与，主讲《量子启发的新型视觉主干模型WaveMLP》。

讲者
唐业辉，北京大学智能学院在读博士，主要研究方向是面向计算机视觉的主干模型设计及高效部署；在NeurIPS、CVPR、ICCV等顶级会议上发表多篇论文。

第122讲

主题
《量子启发的新型视觉主干模型WaveMLP》

提纲
1、视觉领域的新型架构研究
2、基于多层感知器的简洁型视觉MLP架构
3、受量子力学启发的新型视觉MLP架构WaveMLP
4、拓展：极简的视觉主干模型

直播信息
直播时间：6月7日19:00
直播地点：智东西公开课知识店铺

成果
WaveMLP：《An Image Patch is a Wave: Quantum Inspired Vision MLP》
论文链接：https://arxiv.org/abs/2111.12294.pdf
PyTorch 代码：https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
MindSpore 代码：https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp

相关推荐