新加坡国立大学在读博士薛复昭：更少参数下提高视觉Transformer模型性能的通用框架WideNet

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结142讲，错过往期讲座直播的朋友，可以点击文章底部“阅读原文”进行回看！

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

视觉Transformer模型几乎火遍计算机视觉各个领域，其性能随着参数增加和更久的训练过程而得到提升。然而，当可供训练的参数较少时，较大的视觉Transformer模型往往不易于发挥其强大的建模表征能力。

目前，提高视觉Transformer模型有效性和效率的思路主要有两种:一种是扩大可训练参数范围，另一种是通过参数共享实现浅层化或在模型深度上进行压缩。但是两种思路各有其局限性，前者在训练和推理过程中，性能不能被线性的提升；后者则由于压缩了原始模型的深度，导致模型学习能力的下降。

为了在更少的可训练参数下获得更好的性能，新加坡国立大学 HPC-AI实验室在读博士薛复昭等人提出了一个有效利用可训练参数的视觉Transformer框架WideNet。WideNet首先通过在Transformer Block之间共享参数来压缩可训练参数和深度。为了最大化每个Transformer Block的建模能力，将混合专家(mixture-of-experts，MoE)结构代替前馈网络。然后，使用参数不共享的多个Layer Norm在Transformer层之间共享MoE层。这样起到了转换各种语义表示的作用，使模型更具有参数效率和有效性。

在ImageNet-1K数据集上，采用0.72倍可训练参数时，WideNet比Vision Transformer 高出1.46%。而在采用0.46×和0.13×可训练参数时，WideNet仍然比ViT和ViT-MoE分别高出0.83%和2.08%。

8月4日晚6点，「AI新青年讲座」第143讲邀请到新加坡国立大学HPC-AI实验室在读博士薛复昭参与，主讲《更少参数下提高视觉Transformer模型性能的通用框架WideNet》。

讲者

薛复昭，新加坡国立大学HPC-AI实验室在读博士，硕士毕业于南洋理工大学获得硕士学位，师从 Chng Eng Siong 教授和 Sun Aixin 教授；目前是 Google AI 的学生研究员，与 Yi Tay 和 Mostafa Dehghani 合作；研究兴趣主要集中在机器学习、自然语言处理和高性能计算，最近的兴趣是设计算法和系统来训练大型和高效的语言模型。

第143讲

主题

更少参数下提高视觉Transformer模型性能的通用框架WideNet

提纲

1、提高视觉Transformer模型性能的方法及局限性
2、在宽度上扩展可训练参数的MoE架构
3、有效利用可训练参数的视觉Transformer框架WideNet
4、在0.72倍或0.46倍参数下的性能表现

直播信息

直播时间：8月4日18:00
直播地点：智东西公开课知识店铺

相关推荐