香港中文大学在读博士李彦玮：基于Transformer的多模态3D检测表示

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

相比于单模态检测，而使用多模态传感器（如LiDAR 和相机）的3D检测，可以通过不同模态的数据来补充先验知识。例如来自点云的准确位置和来自图像的丰富上下文。但相机缺乏准确的深度，图像则不能像点云那样在体素空间中自然地表示。因此，对于多模态3D检测而言，统一的表示方法对于促进跨模式的知识转移和特征融合至关重要。

为了有效的表示多模态3D检测，在CVPR 2022上，香港中文大学在读博士李彦玮等人提出了一个概念简单但有效的跨模态三维目标检测框架VFF（Voxel Field Fusion）。该方法旨在通过在Voxel field中将增强图像特征表示为ray并进行融合来保持跨模态一致性。在各种基准测试中，VFF取得了一致的收益，并且优于以前基于KITTI和nuScenes数据集的融合方法。

同时，为了在统一体素空间中的进行多模态表示，以实现准确和鲁棒的单模态或跨模态3D检测，李彦玮博士基于Transformer最新提出了一个用于多模态 3D 对象检测的统一框架UVTR。UVTR在没有高度压缩的情况下保留了体素空间，以减轻语义歧义并实现空间交互。并且通过跨模态交互的方式，充分利用不同传感器的固有属性，包括知识传递和模态融合。

通过这种方式，点云中的几何感知表达式和图像中的上下文丰富的特征得到了很好的利用，以提高性能和鲁棒性。最后的实验证明，UVTR超越了以前在单模态和多模态输入方面的工作，并在 nuScenetest 数据集中取得了领先的性能，激光雷达、相机和多模态输入的 NDS 分别为 69.7%、55.1% 和 71.1%。

8月11日晚6点，「AI新青年讲座」第145讲，邀请到香港中文大学在读博士李彦玮参与，主讲《基于Transformer的多模态3D检测表示》。

讲者

李彦玮，香港中文大学在读博士，师从贾佳亚教授；主要研究方向主要集中于2D和3D的场景感知，曾在CVPR、NeurIPS、TPAMI等会议和期刊上发表多篇学术论文。

主题

基于Transformer的多模态3D检测表示

提纲

1、多模态3D感知的研究与发展
2、利用图像光束的跨模态融合方法
3 、基于Transformer的多模态3D检测统一表示框架
4、未来多模态感知的前景

直播信息

直播时间：8月11日18:00
直播地点：智东西公开课知识店铺

成 果

VFF：《Voxel Field Fusion for 3D Object Detection》
UVTR：《Unifying Voxel-based Representation with Transformer for 3D Object Detection》

论文链接

https://arxiv.org/pdf/2205.15938.pdf
https://arxiv.org/pdf/2206.00630.pdf

开源地址

https://github.com/dvlab-research/VFF
https://github.com/dvlab-research/UVTR

相关推荐