从AI修复老影像到对话实现人脸编辑,5场讲座直播讲解GAN的前沿研究与魔法能力!

又双叒叕上新喽!继「学术新青年讲座」、「移动机器人技术系列课」、「轻量化网络专题讲座」、「目标检测与识别专题讲座」之后,智东西公开课AI教研组又有新动作啦~

从年初的大爆的“蚂蚁呀嘿”,到短视频中各种兼具趣味与人物个性的人脸特效,像人脸年轻化、秒变动画脸、发型改变等,再到一些珍贵黑白影像的修复、上色。以上种种特效和修复技术,传统算法是无法完成的,而赋予这一切魔法的是——生成对抗网络GAN。

生成对抗网络GAN是通过生成器和判别器之间的相互博弈,使得生成器生成的数据分布接近真实数据分布。自2014年GAN提出以来,已产生了许多优秀的GAN模型,它们广泛应用于学术界和工业界,例如常用于短视频中人脸特效的StyleGAN,AI影像修复中的GPEN和NoGAN,超分辨率图像复原中的SRGAN,风格迁移中的CycleGAN、Pix2Pix、StarGAN,合成逼真的图像的GauGAN。尽管已经有了这么多优秀的模型,但GAN模型仍在不断的改进,像130毫秒生成动漫肖像的AgileGAN,生成山水画的SAPGAN,细节拉满的StyleGAN3等。

为了让大家更好地学习并掌握GAN的前沿研究与技术应用,智东西公开课策划并推出「生成对抗网络GAN专题讲座」。本次专题讲座邀请到五位来自国内外著名高校的科研人员及知名开发者,分别就AI影像修复与艺术创作、多样化图像生成、GAN的可解释性学习、提升图像生成质量的条件生成网络、交互式人脸编辑等内容进行直播讲解。

11月16日早10点,独立艺术家、游戏开发者大谷Spitzer将率先带来「生成对抗网络GAN专题讲座」第1讲的直播讲解,主题为《人工智能影像修复与AI艺术创作》。

大谷的游戏小屋,经常上B站的网友对这个ID应该都不陌生。下图的是大谷的两个作品《老北京100年AI影片上色修复》和《他们与天地永存》。可以看到随着一帧帧上了颜色的画面,拉近了历史的厚重感。经过对原视频的各种上色、插帧、扩大分辨率等操作,你可以清晰看到当时的人走在大街小巷时的一颦一笑,这些模糊的影片被赋予了不同的意义。

本次讲座中,大谷老师将从这些自制案例入手,详细解析人工智能影像修复的技术、制作流程、难点与解决方法,并分享他在AI艺术创作的探索和对未来发展的思考。

第2讲将于11月22日晚7点进行,由香港中文大学在读博士刘睿主讲,主题为《基于条件生成对抗网络的多样化图像生成》。

条件生成对抗网络cGAN是在对抗生成网络GAN的基础上加入一些条件,使得GAN模型可以生成符合给定条件的图像。由于现实世界的场景期望生成的图像具有多样化,而利用cGAN生成的图像存在一个问题:生成的图像多样性不足。为了解决这个缺点,许多工作试图增强输入latent code和输出图像之间的相关性,以确保latent code可以控制生成的图像。但该方法仅考虑了单个latent code与其生成图像之间的关系,而其他latent code与生成图像之间的关系被忽略了。

在本次讲座中,刘睿博士将讲解他们在CVPR 2021上发表的研究成果:一种基于对比学习增强图像生成的多样性方法。该方法借助无监督表征学习中的对比学习,从隐空间和图像空间的距离远近角度考虑,提出使用对比损失函数作为额外监督,加入已有的条件生成对抗网络中,使得生成多样性大大增强。

第3讲由中科院计算所博士何振梁主讲,时间为12月3日晚7点。何博将围绕《GAN的层次化可解释维度学习》这一主题带来直播讲解。

在CNN网络中,浅层往往能检测到颜色和纹理,较深的层则更多关注对象和部分特定的区域。与CNN类似,在生成对抗网络中,不同层也可生成含有不同语义信息的图像。在挖掘不同层的语义信息,现有方法只能应用于训练好且固定的生成器,而生成器本身仍然作为一个黑盒运行,缺乏直接控制不同层的信息。

在本次讲座中,江博等人提出了一个能够无监督的从不同生成器层挖掘可解释语义信息的EigenGAN模型。它将一个具有正交基的线性子空间嵌入到每个生成器层中,利用训练来学习目标分布。这些逐层子空间会在每一层自动发现一组“特征维度”,最后通过遍历所有特定特征维度,生成器可产生与特定语义属性相对应的连续变化的样本。

12月7日晚7点,我们邀请到罗格斯大学在读博士韩立功以《基于双投影判别器的条件对抗生成网络》为主题带来直播讲解。

在条件对抗生成网络中,将条件信息引入判别器的方法有两个:一个是直接将标签和数据一起作为网络的输入,另一个是将标签引入一个辅助分类器。前者是在拟合条件数据分布 ,是数据拟合;而后者在拟合类别分布,是标签拟合。虽然标签拟合并不直接提升生成图像的质量,但适当的标签拟合有利于图像生成的。那如何将这两种方法进行有效融合呢?

在本次讲座中,韩博提出了一个基于双投影判别器的条件对抗生成网络,能够自适应的平衡训练过程中的数据拟合和标签拟合。

最后一讲将于12月10日晚7点进行,由南洋理工大学在读博士姜瑜铭主讲,主题为《对话驱动的高细粒度人脸编辑》。

人脸编辑是让用户能够按照需求对人脸的特定部分进行编辑。而现有方法中,人脸编辑算法缺乏一个灵活的与用户交互方式。同时,基于GAN的人脸编辑算法主要是利用latent code沿着某一方向不断移动来生成某一人脸属性,但这种方法往往不能很好的生成细粒度图像。

在本次讲座中,姜博等人提出了一个对话驱动的人脸编辑系统Talk-to-Edit。它首先GAN隐空间中学习了一个语义场,通过在隐空间中沿着一个方向不断移动,从而实现连续且细粒的人脸编辑。之后基于语义场,引入了对话的模块来使得系统能够理解用户的语言编辑需求及向用户提供反馈。

「生成对抗网络GAN专题讲座」将在智东西公开课知识店铺进行,其中主讲环节40分钟,问答环节20分钟。本次专题讲座已组建交流群,并邀请5位讲师加入,欢迎感兴趣的朋友申请。

「生成对抗网络GAN专题讲座」筹备不易,欢迎大家踊跃报名。同时后续也将陆续推出更多GAN方面的讲座,大家敬请期待!