新加坡国立大学在读博士薛复昭:更少参数下提高视觉Transformer模型性能的通用框架WideNet

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结142讲,错过往期讲座直播的朋友,可以点击文章底部“阅读原文”进行回看!

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

视觉Transformer模型几乎火遍计算机视觉各个领域,其性能随着参数增加和更久的训练过程而得到提升。然而,当可供训练的参数较少时,较大的视觉Transformer模型往往不易于发挥其强大的建模表征能力。

目前,提高视觉Transformer模型有效性和效率的思路主要有两种:一种是扩大可训练参数范围,另一种是通过参数共享实现浅层化或在模型深度上进行压缩。但是两种思路各有其局限性,前者在训练和推理过程中,性能不能被线性的提升 ;后者则由于压缩了原始模型的深度,导致模型学习能力的下降。

为了在更少的可训练参数下获得更好的性能,新加坡国立大学 HPC-AI实验室在读博士薛复昭等人提出了一个有效利用可训练参数的视觉Transformer框架WideNet。WideNet首先通过在Transformer Block之间共享参数来压缩可训练参数和深度。为了最大化每个Transformer Block的建模能力,将混合专家(mixture-of-experts,MoE)结构代替前馈网络。然后,使用参数不共享的多个Layer Norm在Transformer层之间共享MoE层。这样起到了转换各种语义表示的作用,使模型更具有参数效率和有效性。

在ImageNet-1K数据集上,采用0.72倍可训练参数时,WideNet比Vision Transformer 高出1.46%。而在采用0.46×和0.13×可训练参数时,WideNet仍然比ViT和ViT-MoE分别高出0.83%和2.08%。

8月4日晚6点,「AI新青年讲座」第143讲邀请到新加坡国立大学HPC-AI实验室在读博士薛复昭参与,主讲《更少参数下提高视觉Transformer模型性能的通用框架WideNet》。

讲者

薛复昭,新加坡国立大学HPC-AI实验室在读博士,硕士毕业于南洋理工大学获得硕士学位,师从 Chng Eng Siong 教授和 Sun Aixin 教授;目前是 Google AI 的学生研究员,与 Yi Tay 和 Mostafa Dehghani 合作;研究兴趣主要集中在机器学习、自然语言处理和高性能计算,最近的兴趣是设计算法和系统来训练大型和高效的语言模型。

第143讲

主题

更少参数下提高视觉Transformer模型性能的通用框架WideNet

提纲

1、提高视觉Transformer模型性能的方法及局限性
2、在宽度上扩展可训练参数的MoE架构
3、有效利用可训练参数的视觉Transformer框架WideNet
4、在0.72倍或0.46倍参数下的性能表现

直播信息

直播时间:8月4日18:00
直播地点:智东西公开课知识店铺