南洋理工大学MMLab在读博士黄子琪:不同扩散模型合作实现多模态人脸生成与编辑|AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结212讲,有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

自从扩散模型(Diffusion  Models)展现出了强大的生成能力后,不同种类的扩散模型各显神通 —— 有可以根据文字生成图片的 text-to-image 模型,有可以从分割图生成图片mask-to-image 模型,也有生成视频、3D、motion 等等内容的扩散生成模型。

那有没有一种方法可以让这些预训练扩散模型合作起来,发挥各自的专长,实现一个多功能的生成框架呢?比如当 text-to-image 模型与 mask-to-image 模型合作时,我们就可以同时接受 text 和 mask 输入,并生成与 text 和 mask 一致的图片了。

在 CVPR 2023 上,来自南洋理工大学 MMLab 的博士生黄子琪等人提出了一种简单有效的方法来实现不同扩散模型之间的合作:Collaborative Diffusion。

基于扩散模型迭代去噪的性质,Collaborative Diffusion 在去噪的每一步都会动态地预测不同的扩散模型如何有效合作,各取所长。并且可以实现高质量的多模态控制的人脸生成和编辑。此外,作为一个通用框架,Collaborative Diffusion 不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。

6月9日晚6点,「AI新青年讲座」第213讲邀请到 Collaborative Diffusion 一作、南洋理工大学MMLab在读博士黄子琪参与,主讲《不同扩散模型合作实现多模态人脸生成与编辑》。

讲者
黄子琪,南洋理工大学MMLab在读博士;由刘子纬教授指导;广泛关注计算机视觉和深度学习领域,目前研究重点是生成模型、视觉生成和编辑,在CVPR、ICCV、ICIP 等会议上发表过多篇论文;

第213讲

主 题
《不同扩散模型合作实现多模态人脸生成与编辑》

提 纲
1、扩散模型的应用现状及经典模型解析
2、多个预训练扩散模型合作的实现方法
3、不同种类扩散模型合作的多功能生成框架
4、高质量的多模态控制的人脸生成和编辑

直 播 信 息
直播时间:6月9日18:00
直播地点:智东西公开课知识店铺

成果
论文标题:《Collaborative Diffusion for Multi-Modal Face Generation and Editing》
论文地址:https://arxiv.org/abs/2304.10530
开源地址:https://github.com/ziqihuangg/Collaborative-Diffusion