「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

你是否曾被《爱丽丝梦游仙境》或《哈利波特》等作品所描绘的世界所吸引?我们如何能在数字世界中构造出或是真实或是奇幻的三维世界,并且与之交互?

然而,传统的场景生成工作常局限于单一类型场景,生成结果缺乏连贯性,这显著限制了其在虚拟现实、游戏及创意设计等前沿领域的应用潜力。随着这些领域对实时性与交互式3D场景需求的激增,传统离线处理的方法已难以满足用户对内容实时生成和实时交互的需求。

更进一步,为了创建沉浸式虚拟现实,实现对物理交互(如外部力)做出真实响应,静态3D对象动态生成变得尤为重要。传统的无条件或文本条件动态生成方法无法处理动作条件,且真实物体的物理材料属性测量困难且数据稀缺,这使得传统的物理模拟方法难以准确应用。

针对以上问题,斯坦福大学吴佳俊教授团队在读博士俞洪兴联合Google、MIT等共同提出了使用单张图片生成一系列丰富的3D场景模块化框架WonderJourney,实现快速、交互式的3D场景生成模型WonderWorld,静态3D对象与场景内的物体进行物理交互的生成方法PhysDreamer。相关论文分别为《WonderJourney: Going from Anywhere to Everywhere》,已收录于CVPR 2024、《WonderWorld: Interactive 3D Scene Generation from a Single Image》,《PhysDreamer: Physics-based Interaction with 3D Objects via Video Generation》,已收录于ECCV 2024。

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

与以往专注于单一类型场景的视图生成框架不同,WonderJourney可以从用户提供的任何位置(通过文本描述或图像)开始,生成一系列多样化且连贯连接的3D场景。其主要包括三个核心模块:场景描述生成、视觉场景生成和视觉验证。场景描述生成:使用大型语言模型(LLM)根据用户提供的内容(无论是直接的文本描述还是通过图像转换得到的文本)生成下一个场景的文本描述。文本描述的内容包含场景风格、场景中的物体和简洁的背景描述,共同构成了下一个场景的语义和概念框架。

视觉场景生成:根据当前场景图像和下一个场景的文本描述,使用文本驱动的点云生成来生成下一个场景的3D表达。这一过程包括透视投影、渲染、深度估计、基于分割的深度细化以及文本条件图像修复等操作,最终生成有颜色的点云形式的立体3D场景。

视觉验证:使用大型视觉语言模型(VLM)对生成的场景进行细致审核,以确保其在视觉上无缺陷且符合用户期望。通过查询语句来检测图像中是否存在模糊失焦的物体、几何不一致等不期望的效果。如果检测到不期望的效果,系统会拒绝该场景并重新生成,直到满足要求为止。

通过重复上述步骤,每个新场景都基于前一个场景的描述和图像进行生成,确保了整个3D场景的连贯性和多样性。

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

WonderWorld框架的核心在于利用快速高斯体素(Fast Gaussian Surfels, FGS)和基于引导扩散的深度估计方法,显著减少计算时间并提升场景生成的几何一致性。

FGS是3D Gaussian Surfels的轻量级版本,每个FGS由一组参数定义,包括3D空间位置、方向、尺度、不透明度和RGB颜色。初始化时,利用输入图像中每个像素的信息来直接求解或近似表面的参数(如颜色从像素值获取,位置通过像素投影到3D空间估计)实现快速优化,而不是随机初始化和优化。

通过考虑现有场景的可见深度和新场景几何的一致性,有效减少几何失真。采用引导扩散的深度估计方法确保外推场景和现有场景之间的几何对齐。

为了填补生成场景中的遮挡空洞,WonderWorld引入了一种分层场景生成策略。将场景分解为前景层、背景层和天空层。通过识别和分离前景层,可以针对性地生成或填充不遮挡区域,从而避免在新视角下出现视觉上的断裂。

WonderWorld大大减少了传统方法所需的计算时间,并提高了场景的多样性和连贯性。

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

PhysDreamer通过利用视频生成模型学习到的物体动力学先验知识,赋予静态3D对象交互式动态。其核心在于模拟物体对外部力或代理操作等新颖交互的响应,进而提升虚拟体验的真实性。首先,使用3D高斯函数集合来精确表示3D场景中的静态物体。每个3D高斯代表场景中的一个点,包含位置、透明度、颜色和协方差矩阵等信息,这些点合起来能够描述整个物体的几何和光学特性。

其次,在3D高斯表示的基础上,渲染出3D场景的静态图像,再利用视频生成模型将静态图像转化为展示物体运动的视频序列。

PhysDreamer采用可微分的材质点方法(MPM)来模拟物体的物理动态。然后优化材料属性场和初始速度场,以最小化渲染视频与参考视频之间的差异。

最后,PhysDreamer使用可微分渲染技术来生成最终的动态视频,将模拟得到的物理状态转换为像素空间的图像,并通过与参考视频的比较来进一步优化材质属性,形成一个闭环的优化流程。

通过这种方式,PhysDreamer能够生成与真实物理交互高度一致的动态效果。

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告

8月23日10点,智猩猩邀请到论文一作、斯坦福大学博士生俞洪兴参与「智猩猩AI新青年讲座」249讲,主讲《交互式3D世界生成》。

讲者

俞洪兴

斯坦福大学博士生

导师为吴佳俊教授。研究兴趣是如何让AI理解与创造一个可交互的动态三维物理世界。曾获得SIGGRAPH Asia最佳论文奖,Qualcomm奖学金,斯坦福大学SoE奖学金。多次获得中国国家奖学金,两次获得Nvidia奖学金提名,以及Meta奖学金提名。个人主页:https://kovenyu.com/

主题

交互式3D世界生成

提纲

1、3D世界生成的研究现状
2、使用单张图片生成一系列丰富的3D场景模块化框架
3、实现快速、交互式的3D场景生成模型WonderWorld
4、静态3D对象与场景内的物体进行物理交互的生成方法
5、总结与展望

直播信息

直播时间:8月23日10:00
直播地点:智猩猩GenAI视频号

成果

论文标题
《WonderJourney: Going from Anywhere to Everywhere》
《WonderWorld: Interactive 3D Scene Generation from a Single Image》
《PhysDreamer: Physics-based Interaction with 3D Objects via Video Generation》

论文链接
https://arxiv.org/abs/2312.03884
https://arxiv.org/abs/2406.09394
https://arxiv.org/abs/2404.13026

项目网站
https://kovenyu.com/wonderjourney/
https://kovenyu.com/wonderworld/
https://physdreamer.github.io/

入群申请

本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。

希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“ANY249”进行申请。

多篇3D生成顶会成果!斯坦福大学吴佳俊教授团队提出交互式3D世界生成 | 讲座预告