新加坡国立大学在读博士施宇钧：DragDiffusion——基于扩散模型的关键点拖拽图片编辑｜AI新青年讲座

「AI新青年讲座」由智东西公开课出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结222讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

对图片灵活而精准的编辑是一个富有挑战性的课题，近期也出现了许多优秀的成果。如 DragGAN 提出了一个优雅的图片编辑框架：基于关键点拖拽的图片编辑，可以在图像上通过「拖曳」的方式，改变并合成自己想要的图像。比如让一只猫转头、睁眼闭眼，或者竖起耳朵等等。

尽管 DragGAN 已经展示出了极为惊艳的结果，但受限于 GAN 的表达能力，其可用范围与场景受到了极大的约束。为尝试解决这一问题，来自新加坡国立大学和字节跳动的几位研究者，在 CVPR 2023 提出了一个名为 DragDiffusion 的算法，将“ Drag ”编辑拓展到扩散模型上。借助大规模预训练的扩散模型，大大提高了这种拖拽编辑框架的实用性，使之能够在多物体、广泛类别、不同风格等复杂真实场景得以运用。

8月28日晚7点，「AI新青年讲座」第223讲邀请到 DragDiffusion 一作、新加坡国立大学在读博士施宇钧参与，主讲《DragDiffusion：基于扩散模型的关键点拖拽图片编辑》。

讲者
施宇钧，新加坡国立大学在读博士；指导老师为陈延福（Vincent Y. F. Tan）教授；目前的科研方向集中于生成式模型及其在图片与视频中的应用；工作成果发表于ICLR、CVPR、NeurIPS、ICCV等机器学习与计算机视觉顶会。

第223讲

主题
《DragDiffusion：基于扩散模型的关键点拖拽图片编辑》

提纲
1、关键点拖拽的图片编辑框架 DragGAN 及局限性
2、基于扩散模型的图片编辑算法 DragDiffusion
3、LoRA 微调及精确的拖拽编辑
4、操作演示

直播信息
直播时间：8月28日19:00
直播地点：智东西公开课知识店铺

成果
论文标题：《DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing》
论文地址：https://arxiv.org/abs/2306.14435
开源代码：https://github.com/Yujun-Shi/DragDiffusion

相关推荐