香港科技大学在读博士戚晨洋：无需 Finetune 的文本驱动视频编辑算法 FateZero｜AI新青年讲座

「AI新青年讲座」由智猩猩（原智东西公开课）出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结225讲；有兴趣分享学术成果的朋友，可以与智猩猩教研团队进行邮件（class@zhidx.com）联系。

Diffusion model 在基于文本的图像生成方面已经取得了显着的成功。然而，由于它在生成过程中包含巨大的随机性，因此将此类模型应用于现实世界的视觉内容编辑（尤其是在视频中）仍然具有挑战性。在 ICCV 2023 上，来自香港科技大学、腾讯 AI Lab 和中科院计算所的研究者提出了一种基于 attention 的、 zero-shot 基于文生图模型的视频编辑算法：FateZero。FateZero 无需按提示进行训练或使用用户提供的 mask，就能实现视频中风格和物体属性的编辑。该工作已被 ICCV 2023 录取为 Oral。

与之前的 DDIM-inversion 相比，FateZero 在 inversion-stage 记录中间的 attention map，从而有效地保留几何结构和时间运动信息。这些 attention map 被注入融合进编辑过程，而不是在去噪过程中重新生成。为了进一步增加生成视频的多样性，研究者通过 source prompt 的 cross-attention map 获得的二值化的图片掩码，再将改掩码用于 self-attention 混合。最后，他们还通过数值分析和问卷调查证明了方法的有效性。

9月26日上午10点，「AI新青年讲座」第226讲邀请到 FateZero 一作、香港科技大学在读博士戚晨洋参与，主讲《无需 Finetune 的文本驱动视频编辑算法 FateZero》。

讲者
戚晨洋，香港科技大学在读博士，指导老师为陈启峰教授；研究兴趣为图像视频处理和生成，在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文；一作论文 FateZero 在 ICCV 2023 中被评为 Oral，将在大会上做报告展示；也曾在微软亚洲研究院、腾讯 AI Lab、Google Research 实习。

第226讲

主题
《无需 Finetune 的文本驱动视频编辑算法 FateZero》

提纲
1、文生图扩散模型在视频编辑上的挑战
2、常见的视频编辑方法对比
3、一种 Zero-shot 真实视频编辑方法 FateZero
4、支持风格、属性、形状等多种视频的编辑

直播信息
直播时间：9月26日10:00
直播地点：智东西公开课知识店铺

成果
论文标题：《FateZero: Fusing Attentions for Zero-shot Text-based Video Editing》
论文地址：https://arxiv.org/abs/2303.09535
开源代码：https://github.com/ChenyangQiQi/FateZero

相关推荐