悉尼科技大学ReLER Lab在读博士张轩梦:多视图统一的3D感知图像生成网络MVCGAN | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

GAN在2D图像生成上大放异彩,但在3D场景上却无能为力。有研究者提出了一种3D感知图像合成模型,可以从多个视图图像中学习3D的场景表示,例如体素、NeRF等。其中,基于NeRF的方法引起人们的关注,也产生了许多科研成果。然而现有的方法存在一个关键的挑战:无法保证视图之间的几何约束,导致无法生成多视图一致的图像。

悉尼科技大学ReLER Lab在读博士张轩梦等人对上述问题进行分析,提出多视角连贯性生成式对抗网络MVCGAN。利用底层的三维几何信息,解决视觉之间几何约束的问题,强制使图像对的光度一致,来明确视图之间的对应关系,鼓励模型推理出正确的3D形状,并优化训练过程,使生成器不仅可以学习到2D图像的流形,还能保证底层3D的正确性。

此外,张轩梦博士等还设计了一种两阶段训练策略,来生成具有精细细节的高分辨率图像。数据表明,在CELEBA-HQ、FFHQ和AFHQv2三个数据集上,MVCGAN在3D感知图像合成上达到了最先进的性能。

7月20日晚6点,「AI新青年讲座」第139讲邀请到悉尼科技大学ReLER Lab在读博士张轩梦参与,主讲《多视图统一的3D感知图像生成网络MVCGAN》

讲者

张轩梦,悉尼科技大学ReLER Lab在读博士,师从杨易教授,研究方向为3D视觉,图像生成和图像检索,曾在等学术竞赛CVPR AICITY Challenge中取得冠军和亚军,并在计算机视觉顶级会议CVPR发表过论文。

主题

《多视图统一的3D感知图像生成网络MVCGAN》

提纲

1、3D图像生成的研究背景
2、主流方法的优劣势比较
3、基于几何约束的3D图像生成网络MVCGAN
4、多视图的联合优化及应用展示

直播信息

直播时间:7月20日18:00
直播地点:智东西公开课知识店铺

成果

MVCGAN:《Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis》
论文链接:https://arxiv.org/abs/2204.06307.pdf
开源代码:https://github.com/Xuanmeng-Zhang/MVCGAN