香港科技大学在读博士白旭阳:基于Transformer的多模态三维目标检测 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

尽管多传感器融合在自动驾驶领域越来越受欢迎,但在照明不良和传感器未对准等较差的图像条件下鲁棒性较差。现有的多传感器融合方法虽然取得了不错的性能,但仍存在两个主要问题:

1)简单的通过逐个元素相加或拼接融合LiDAR特征和图像特征,因此对于低质量的图像特征,例如光照条件较差的图像,融合的性能会严重下降;

2)稀疏的LiDAR点云与密集的图像像素之间的硬关联,不仅浪费了许多语义信息丰富的图像特征,而且严重依赖于两个传感器之间的高质量校准,但由于固有的时空偏差,这种校准往往难以获得。

为了解决这些问题,香港科技大学、华为IAS BU联合提出一种新的基于Transformer的激光雷达-摄像机融合模型TransFusion用于自动驾驶三维目标检测。由卷积骨干和基于Transformers解码器的检测头组成,解码器的第一层使用稀疏的目标查询数据集预测来自LiDAR点云的初始边界框,第二层解码器自适应地将点云特征与有用的图像特征融合,充分利用空间和上下文关系。Transformer的注意力机制使TransFusion网络能够自适应地决定从图像中获取什么信息和从什么位置获取信息,从而形成一个鲁棒和有效的融合策略。最后,针对点云中难以检测的对象,还引入了图像引导的查询初始化模块进行优化。

TransFusion在nuScenes Dataset和Waymo Open Dataset上取得了最先进的性能,同时TransFusion还扩展到了3D跟踪任务中,并在nuScenes跟踪排行榜上获得第一名。该工作被CVPR 2022接收。

4月18日,「AI新青年讲座」第10讲特邀香港科技大学白旭阳博士参与,并就主题《基于Transformer的多模态三维目标检测》,讲解一种面向自动驾驶中低质量图像的Transformer多模态三维目标检测器。

讲座内容

主题
基于Transformer的多模态三维目标检测

提纲
1、自动驾驶中的多模态三维目标检测方法
2、多模态融合算法存在的问题
3、针对低质量图像的Transformer三维目标检测器
4、多模态三维目标检测的应用及未来展望

直播信息
直播时间:4月18日19:00
直播地点:智东西公开课知识店铺

论文成果
TransFusion:《 TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers》
链接:https://arxiv.org/pdf/2203.11496.pdf
代码:https://arxiv.org/pdf/2203.11496.pdf

讲师介绍
白旭阳,香港科技大学在读博士,师从戴秋兰教授,来自 VisGraph小组,主要研究方向是点云配准和激光雷达感知,曾在CVPR、ICCV、ECCV等会议上发表多篇学术论文。