新加坡国立大学在读博士施宇钧:DragDiffusion——基于扩散模型的关键点拖拽图片编辑|AI新青年讲座

「AI新青年讲座」由智东西公开课出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结222讲;有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

对图片灵活而精准的编辑是一个富有挑战性的课题,近期也出现了许多优秀的成果。如 DragGAN 提出了一个优雅的图片编辑框架:基于关键点拖拽的图片编辑,可以在图像上通过「拖曳」的方式,改变并合成自己想要的图像。比如让一只猫转头、睁眼闭眼,或者竖起耳朵等等。

尽管 DragGAN 已经展示出了极为惊艳的结果,但受限于 GAN 的表达能力,其可用范围与场景受到了极大的约束。为尝试解决这一问题,来自新加坡国立大学和字节跳动的几位研究者,在 CVPR 2023 提出了 一个名为 DragDiffusion 的算法,将“ Drag ”编辑拓展到扩散模型上。借助大规模预训练的扩散模型,大大提高了这种拖拽编辑框架的实用性,使之能够在多物体、广泛类别、不同风格等复杂真实场景得以运用。

8月28日晚7点,「AI新青年讲座」第223讲邀请到 DragDiffusion 一作、新加坡国立大学在读博士施宇钧参与,主讲《DragDiffusion:基于扩散模型的关键点拖拽图片编辑》。

讲者
施宇钧,新加坡国立大学在读博士;指导老师为陈延福(Vincent Y. F. Tan)教授;目前的科研方向集中于生成式模型及其在图片与视频中的应用;工作成果发表于ICLR、CVPR、NeurIPS、ICCV等机器学习与计算机视觉顶会。

第223讲

主 题
《DragDiffusion:基于扩散模型的关键点拖拽图片编辑》

提 纲
1、关键点拖拽的图片编辑框架 DragGAN 及局限性
2、基于扩散模型的图片编辑算法 DragDiffusion
3、LoRA 微调及精确的拖拽编辑
4、操作演示

直 播 信 息
直播时间:8月28日19:00
直播地点:智东西公开课知识店铺

成果
论文标题:《DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing》
 论文地址:https://arxiv.org/abs/2306.14435
 开源代码:https://github.com/Yujun-Shi/DragDiffusion