新加坡国立大学高级机器人研究中心在读博士黄子渊:TAdaConv——迈向高效的卷积视频理解 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结120讲,错过往期讲座直播的朋友,可以点击文章底部“阅读原文”进行回看!

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

相较图像而言,视频具有更丰富的信息,虽然给视觉理解任务带来了更多的可能性,但也带来了更大的挑战。为了更好地对视频中的内容进行理解,高效地对视频帧之间的时空信息进行建模是关键。

其实自从P3D和R(2+1)D分别在17年的ICCV和18年CVPR上被提出之后,很大一部分工作的时序理解都是通过在时间轴上的1D conv完成的,包括它的复杂度是O(C^2xKxTHW)。这种基于像素点的操作,会在纯2D conv的基础上带来不可忽视的计算开销。举例来说,对于K=3的2D和1D conv,1D conv会在2D conv的基础上将计算量提高33%。

新加坡国立大学高级机器人研究中心的在读博士黄子渊在达摩院实习期间,与达摩院的同事们以及NTU S-Lab的老师们,提出了一种时间自适应卷积TAdaConv。在不修改网络其他结构的情况下,使用TAdaConv代替网络中的2D卷积,可以带来显著的提升。

TAdaConv通过动态地对视频中每一帧的卷积核权重进行自适应调整,对空间卷积赋予时序建模能力,从而在几乎没有额外计算开销的情况下有效提升现有模型的时序推理能力。相比常用的时间卷积操作而言,TAdaConv更为高效,同时还能大大提升模型容量。在TAdaConv的基础上,黄博还构建TAda2D和TAdaConvNeXt视频分类模型,并在Kinetics-400、Something-Something-V2以及Epic-Kitchens-100视频分类任务上达到了极具竞争力的性能。

TAdaConv论文已被ICLR 2022接收,相应的PyTorch代码和模型也已经作为视频理解框架EssentialMC2的一部分进行开源,并在达摩院的多个视频理解业务中成功应用。

6月1日,「AI新青年讲座」第121讲邀请到TAdaConv一作、新加坡国立大学高级机器人研究中心在读博士黄子渊参与,主讲《TAdaConv:迈向高效的卷积视频理解》。

讲者
黄子渊,新加坡国立大学高级机器人研究中心在读博士;导师为Marcelo Ang;主要研究兴趣是视频理解,包括视频动作理解、视频表征学习、多模态学习、以及基于视频的环境理解等;曾在阿里巴巴达摩院实习,并获得阿里巴巴优秀科学研习生荣誉。在达摩院实习期间,其研究成果集成于达摩院自研的视频理解算法模型EMC2。

第121讲

主 题
《TAdaConv:迈向高效的卷积视频理解》

提 纲
1、视频理解任务中的时序建模问题
2、增强时序建模的时序自适应卷积TAdaConv
3、高效的视频分类模型TAda2D和TAdaConvNeXt
4、在视频环境感知模型中的拓展与应用

直 播 信 息
直播时间:6月1日19:00
直播地点:智东西公开课知识店铺

成果

TAda:《TAda! Temporally-Adaptive Convolutions for Video Understanding》
论文链接:https://arxiv.org/pdf/2110.06178.pdf
项目主页:https://tadaconv-iclr2022.github.io/
开源地址:https://github.com/alibaba/EssentialMC2