密西根大学Fouhey AI Lab在读博士钱圣轶:从互联网视频中重建可交互的三维场景 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

虽然已经有大量从单个图像进行三维重建的工作,并取得了突破性的进展,但是受制于数据集,重建的三维场景基本上是静态的,我们无法与之交互,比如说打开一个抽屉、一扇门。

为了重建可交互的三维场景,密西根大学在读博士钱圣轶通过研究互联网视频中重建可交互的三维场景,提出了无需深度相机的可交互三维对象关节检测任务。该任务是通过提取视频中可活动对象的关节,例如门的转轴、抽屉的铰链等,并使用旋转或平移的三维平面来表示它们。最后使用这些数据在自制的、具有关键帧注释的互联网数据集上进行训练,提出一个自顶向下的可交互物体重建网络3DADN。

3DADN会生成可交互物体的运动类型、运动所在位置周围的边界框、旋转或平移轴的二维位置以及铰接平面的三维位置,随后对这些信息进行处理,以在整个视频中找到合理一致的解释。

钱圣轶博士在其自制的互联网视频数据集和Charades数据集上评估了该方法,结果表明,3DADN能够从互联网视频中检测和重建可交互的物体,模型的表现明显优于基线。

7月29日上午10点,「AI新青年讲座」第141讲邀请到密西根大学Fouhey AI Lab在读博士钱圣轶参与,主讲《从互联网视频中重建可交互的三维场景》。

讲 者

钱圣轶,密西根大学Fouhey AI Lab在读博士,导师为 David Fouhey,主要研究兴趣是三维计算机视觉,包括单张和多张稀疏视角图片的三维重建、从图片和视频中重建可交互的三维场景等。曾在Facebook AI Research实习。

主 题

从互联网视频中重建可交互的三维场景

提 纲

1、单目三维重建局限性分析
2、互联网视频中物体可活动关节检测
3、基于关键帧的可交互物体重建网络3DADN
4、在智能机器人交互上的应用

直播信息

直播时间:7月29日10:00
直播地点:智东西公开课知识店铺

成 果

3DADN:《Understanding 3D Object Articulation in Internet Videos》
论文链接:https://arxiv.org/pdf/2203.16531.pdf
开源代码:https://github.com/JasonQSY/Articulation3D