香港科技大学在读博士戚晨洋:无需 Finetune 的文本驱动视频编辑算法 FateZero|AI新青年讲座

「AI新青年讲座」由智猩猩(原智东西公开课)出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

「AI新青年讲座」目前已完结225讲;有兴趣分享学术成果的朋友,可以与智猩猩教研团队进行邮件(class@zhidx.com)联系。

Diffusion model 在基于文本的图像生成方面已经取得了显着的成功。 然而,由于它在生成过程中包含巨大的随机性,因此将此类模型应用于现实世界的视觉内容编辑(尤其是在视频中)仍然具有挑战性。在 ICCV 2023 上,来自香港科技大学、腾讯 AI Lab 和中科院计算所的研究者提出了一种基于 attention 的、 zero-shot 基于文生图模型的视频编辑算法:FateZero。FateZero 无需按提示进行训练或使用用户提供的 mask,就能实现视频中风格和物体属性的编辑。该工作已被 ICCV 2023 录取为 Oral。

与之前的 DDIM-inversion 相比,FateZero 在 inversion-stage 记录中间的 attention map,从而有效地保留几何结构和时间运动信息。 这些 attention map 被注入融合进编辑过程,而不是在去噪过程中重新生成。 为了进一步增加生成视频的多样性,研究者通过 source prompt 的 cross-attention map 获得的二值化的图片掩码,再将改掩码用于 self-attention 混合。最后,他们还通过数值分析和问卷调查证明了方法的有效性。

9月26日上午10点,「AI新青年讲座」第226讲邀请到 FateZero 一作、香港科技大学在读博士戚晨洋参与,主讲《无需 Finetune 的文本驱动视频编辑算法 FateZero》。

讲者
戚晨洋,香港科技大学在读博士,指导老师为陈启峰教授;研究兴趣为图像视频处理和生成,在 ICCV、CVPR、ACM- MM 等会议上共发表5篇一作/共同一作论文;一作论文 FateZero 在 ICCV 2023 中被评为 Oral,将在大会上做报告展示;也曾在微软亚洲研究院、腾讯 AI Lab、Google  Research 实习。

第226讲

 主 题 
《无需 Finetune 的文本驱动视频编辑算法 FateZero》 

提 纲 
1、文生图扩散模型在视频编辑上的挑战
2、常见的视频编辑方法对比
3、一种 Zero-shot 真实视频编辑方法 FateZero
4、支持风格、属性、形状等多种视频的编辑

 直 播 信 息 
直播时间:9月26日10:00
直播地点:智东西公开课知识店铺

成果
论文标题:《FateZero: Fusing Attentions for Zero-shot Text-based Video Editing》
论文地址:https://arxiv.org/abs/2303.09535
开源代码:https://github.com/ChenyangQiQi/FateZero