Facebook开源Ego 4D数据集，3000小时第一人视角视频，向AR元宇宙跃进

智东西（公众号：zhidxcom）
编译 | 程茜
编辑 | 李水青

智东西10月15日消息，Facebook在AR领域投入了大量时间和金钱，包括与雷朋（Ray-Ban）合作，打造自己的AR眼镜。目前，这些小工具只能记录和共享图像，未来Facebook又将会赋予它们什么功能？

Ego 4D是Facebook在AI领域的一个长期项目，旨在增强AI从第一人称视角理解世界并与人类互动的能力，解决研究AI对以自我为中心的感知时面临的挑战。

昨天，Facebook宣布开源Ego 4D（Egocentric 4D Perception）计划数据集，该计划是对第一人称或“以自我为中心”的视频进行分析，由两个主要部分组成：一个开放的以自我为中心的视频数据集和一系列Facebook将在未来赋予AI系统的基准。

据称，该数据集的开源大大增加了在研究界公开可用的第一人称视频的数据量，镜头时长比任何其他数据集都高出至少20倍。

一、面向AR，让AI从第一人称视角理解世界

Facebook开源Ego 4D数据集，3000小时第一人视角视频，向AR元宇宙跃进

此前，AI通常从第三人称拍摄的照片和视频中进行学习，但下一代AI将需要从第一视角来展示世界的视频中学习。

以此来看，能够理解世界的AI系统将会开启沉浸式体验的新时代，因为在未来AR眼镜和VR头显等设备将会和智能手机一样日常。

Ego 4D计划试想让AI系统能够使用第一人称视角不断分析人们的生活，通过记录人们的所见所闻所做，以帮助他们完成日常任务。

但目前，任何AI系统都无法可靠地完成此类任务，Facebook强调这是一个研究项目，而不是商业开发项目。然而，可以很明显地看出，Facebook将这些功能视为AR计算的未来。“当然，考虑到增强现实以及我们希望能够用它做什么，未来我们可能会对这项研究加以利用。”Facebook AI研究科学家克里斯汀·格劳曼（Kristen Grauman）在接受外媒The Verge采访时表示。

但Facebook的野心对用户的隐私数据具有巨大影响。隐私专家已经对 Facebook的AR眼镜表示担心，该设备如何让佩戴者隐蔽地记录其他公众成员，而不会窃取他人的数据。如果未来版本的硬件将佩戴者变成行走的监视机器，用户不仅可以记录镜头，而且会分析和转录，只会加剧这种担忧。

二、数据集：855人3205小时视频，跨越欧洲中亚

Facebook开源Ego 4D数据集，3000小时第一人视角视频，向AR元宇宙跃进

Ego 4D计划包含两个任务，分别是推进开放的以自我为中心的视频数据集和推进AI系统完成一系列基准或任务。

Facebook与全球9个国家13所大学和实验室合作收集数据。最新数据显示总共有大约3,205小时的镜头，由居住在9个不同国家的855名参与者录制。参与者佩戴GoPro相机和AR眼镜来录制无脚本活动的视频，视频内容包括建筑工作、烘焙、与宠物玩耍和与朋友交往等行为。

13所大学负责数据收集，并对部分图像内容进行处理，会对所有镜头进行去标识化处理，其中包括模糊旁观者的面部并删除所有的个人身份信息。

格劳曼表示，该数据集“在规模和多样性方面都是同类中的首创”。她说，同类中位于第二的数据集仅包含100小时，且完全位于厨房拍摄的第一人称镜头。“我们让这些AI系统的视野不仅仅面向英国和西西里岛的厨房，还有来自沙特阿拉伯、东京、洛杉矶和哥伦比亚的镜头。”

三、五大基准挑战：情景记忆、社交互动

Facebook开源Ego 4D数据集，3000小时第一人视角视频，向AR元宇宙跃进

Ego 4D的第二个组成部分是一系列基准或任务，Facebook希望世界各地的研究人员使用在其数据集上训练的AI系统，去尝试解决这些问题。Facebook为开发更智能、更有用的AI助手制定了以下五个基准挑战，

1、情景记忆（Episodic memory）：什么时候发生的（例如，“我把钥匙放哪儿了？”）

2、预测（Forecasting）：接下来我可能会做什么（例如，“等等，你已经在这个食谱中加了盐”）

3、手和物体操作（Hand and object manipulation）：我在做什么（例如，“教我如何打鼓”）

4、视听日记（Audio-visual diarization）：谁在什么时候说什么（例如，“课堂上的主要话题是什么？”）

5、社交互动（Social interaction）：谁在与谁互动（例如，“在这嘈杂的餐厅里帮助我更好地听到对话者的声音”）

目前，AI系统对上述问题的解决都非常困难，但创建数据集和基准测试是一种长效方法，可以刺激AI领域的发展。

事实上，ImageNet项目已经作为创建一个特定的数据集和相关的年度竞赛而存在，该项目是一个用于视觉对象识别软件研究的大型可视化数据库，通常被认为掀起了最近的AI热潮。ImagetNet数据集由研究人员训练AI系统，对大量不同对象图片进行识别而得到的数据组成。2012年，该比赛的获胜者使用一种特殊的深度学习方法，击败了竞争对手，开启了当前的研究时代。

Facebook希望其Ego 4D项目能够对AR领域产生类似的影响。该公司表示，在Ego 4D上训练的系统有朝一日不仅可以用于可穿戴相机，还可以用于家庭助理机器人，这些机器人也将依靠第一人称相机来分析周围世界。

“该项目有机会以一种尚未真正实现的方式，对该领域的工作起到促进作用。”格劳曼说，“为了将我们的领域从分析人类拍摄的大量照片和视频的能力，转移到这种流动的、持续的第一人称视觉流，AR系统、机器人需要在连续的背景下理解活动。”

四、Facebook“黑料”频出，数据隐私引争议

Facebook不断探索AI领域，开发人工智能监控系统。尽管Facebook概述的任务确实看起来很实用，但该公司在这一领域的继续探索会让很多人感到担忧。

原因在于Facebook在隐私方面的记录非常糟糕，曾经发生过数据泄露事件，并收到联邦贸易委员会（FTC）对其 50亿美元的罚款。它还反复表明，该公司在许多领域只重视增长和参与，而不是用户的利益。

令人担忧的是，这个Ego 4D项目中的基准不包括突出的隐私保护措施。例如，“视听日记”功能可以转录不同人所说的内容，从未提及删除有关不想被记录的人的数据。

当被问及这些问题时，Facebook的一位发言人在接受外媒The Verge采访时表示，它预计将进一步引入隐私保护措施。发言人说：“我们预计，在公司使用此数据集和基准开发商业应用程序的范围内，他们将为此类应用程序开发保护措施。例如，在AR眼镜可以增强某人的声音之前，他们可能会遵循一个协议来征求其他人的眼镜许可，或者他们可以限制设备的范围，使其只能从正在与佩戴者交谈或在其附近的人那里接收声音。”

但到目前为止，此类保障措施仍只是假设性的。

结语：Facebook大步迈向元宇宙

Facebook以第一人称视频数据训练人工智能模型，有望开辟新的具有沉浸式甚至是自我意识的AI，从而应用在AR、机器人等领域。结合其今年以来对元宇宙的推崇，可以想象这个非商业化的项目日后可能发挥更大的商业价值。

值得一提的是，用户隐私与数据分析的界限如何把握，Facebook将AI系统落地时如何让用户信赖，能够让更多用户参与其中，这是横跨在Facebook与发展AI系统面前的鸿沟。

来源、Facebook、The Verge

一、面向AR，让AI从第一人称视角理解世界

二、数据集：855人3205小时视频，跨越欧洲中亚

三、五大基准挑战：情景记忆、社交互动

四、Facebook“黑料”频出，数据隐私引争议

结语：Facebook大步迈向元宇宙

相关推荐