悉尼科技大学ReLER Lab在读博士张轩梦：多视图统一的3D感知图像生成网络MVCGAN

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

GAN在2D图像生成上大放异彩，但在3D场景上却无能为力。有研究者提出了一种3D感知图像合成模型，可以从多个视图图像中学习3D的场景表示，例如体素、NeRF等。其中，基于NeRF的方法引起人们的关注，也产生了许多科研成果。然而现有的方法存在一个关键的挑战：无法保证视图之间的几何约束，导致无法生成多视图一致的图像。

悉尼科技大学ReLER Lab在读博士张轩梦等人对上述问题进行分析，提出多视角连贯性生成式对抗网络MVCGAN。利用底层的三维几何信息，解决视觉之间几何约束的问题，强制使图像对的光度一致，来明确视图之间的对应关系，鼓励模型推理出正确的3D形状，并优化训练过程，使生成器不仅可以学习到2D图像的流形，还能保证底层3D的正确性。

此外，张轩梦博士等还设计了一种两阶段训练策略，来生成具有精细细节的高分辨率图像。数据表明，在CELEBA-HQ、FFHQ和AFHQv2三个数据集上，MVCGAN在3D感知图像合成上达到了最先进的性能。

7月20日晚6点，「AI新青年讲座」第139讲邀请到悉尼科技大学ReLER Lab在读博士张轩梦参与，主讲《多视图统一的3D感知图像生成网络MVCGAN》。

讲者

张轩梦，悉尼科技大学ReLER Lab在读博士，师从杨易教授，研究方向为3D视觉，图像生成和图像检索，曾在等学术竞赛CVPR AICITY Challenge中取得冠军和亚军，并在计算机视觉顶级会议CVPR发表过论文。

主题

《多视图统一的3D感知图像生成网络MVCGAN》

提纲

1、3D图像生成的研究背景
2、主流方法的优劣势比较
3、基于几何约束的3D图像生成网络MVCGAN
4、多视图的联合优化及应用展示

直播信息

直播时间：7月20日18:00
直播地点：智东西公开课知识店铺

成果

MVCGAN：《Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis》
论文链接：https://arxiv.org/abs/2204.06307.pdf
开源代码：https://github.com/Xuanmeng-Zhang/MVCGAN

相关推荐