基于GAN的任意长度高质量视频生成 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结201讲;有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

基于生成对抗式网络(Generative Adversarial Network, GAN),除了能够生成高分辨率、逼真的图片之外,还能进行图片个性化编辑、图片动画化等。但是,如何利用 GAN 进行视频生成仍然是一个颇有挑战的问题。当前基于GAN的视频生成方法也有很多,比如MoCoGAN、MoCoGAN- HD、VideoGPT、DIGAN、LongVideoGAN、StyleGAN-V等。

然而如何有效并合理地建模时序关系,并能如何生成高质量的任意长度(包括无限长)的视频呢?在ICLR 2023上,来自香港中文大学、上海人工智能实验室、蚂蚁技术研究院以及加州大学洛杉矶分校的研究者提出了一个新的视频生成方法StyleSV。

StyleSV采纳了StyleGAN-V 的设计,并将其作为基准。针对不同跨度的时序关系:短时间(~5 帧)时序关系、中等长度(~5 秒)时序关系和无限长视频生成,StyleSV也分别进行了细致的建模与改进。

StyleSV在三个数据集(YouTube Driving, Timelapse, Taichi-HD)上进行了充分的实验,并充分对比了先前的工作。结果显示,StyleSV在图片质量(FID)以及视频质量(FVD)上,都大幅度超越先前工作。同时,该工作也为基于 GAN 的视频生成方向提供了一个简单且有效的新基准。

4月7日晚6点,AI新青年讲座第202讲邀请到StyleSV一作、香港中文大学MMLab在读博士章启航参与,主讲《基于GAN的任意长度高质量视频生成》。

讲者
章启航,香港中文大学MMLab在读博士,合作导师为周博磊教授;研究方向围绕embodied intelligence,包括场景生成与策略学习,已在TPAMI、ECCV、CORL、ICLR上发表多篇论文。

第202讲

主 题
《基于GAN的任意长度高质量视频生成》
提 纲
1、视频生成的研究及经典方法概述
2、长视频生成的难点
3、针对短时、中等以及长时间跨度视频建模方法
4、GAN视频生成的挑战及展望

直 播 信 息
直播时间:4月7日18:00
直播地点:智东西公开课知识店铺

成果
《Towards Smooth Video Composition》
https://arxiv.org/pdf/2212.07413
https://github.com/genforce/StyleSV