香港科技大学在读博士李世超:基于立体视觉的三维目标检测 | AI新青年讲座

「AI新青年讲座」,聚焦世界顶尖AI研究机构/大学科研新青年的最新研究成果,第一季特邀MIT、牛津、港科大、山大、快手Y-Tech、美团等AI研究机构/大学的八位AI新青年,主讲三维视觉和模型优化部署&TinyML两大领域最新成果。其中三维视觉版块共计4讲,分别由快手Y-Tech团队研究员陈星宇、牛津大学博士后李可杰和师从IEEE fellow陈宝权教授的山大在读博士董思言,以及郑光廷教授的港科大在读博士李世超主讲。

双目立体视觉是机器视觉中的一种重要形式,相较于单目视觉无法对深度信息进行预测,双目立体相机则提供了使用双视图几何进行更可靠深度估计的机会,并且双目立体相机的成本低,所以基于立体视觉的三维目标检测在自动驾驶、机器人抓取等领域有广泛的应用。

早期的立体视觉三维目标检测方法使用伪激光雷达点的表示,其对深度估计误差很敏感,并且当物体在远处或被遮挡时姿态估计的鲁棒性不够。近期方法使用的体素特征能有效地同时利用语义和几何信息,取得了更好的性能。

目前,基于体素特征学习的方法有两类:一类是以场景为中心,构建全局场景级表示,并将它们映射到物体框的场景级模型;另一类是以对象为中心,构建实例级表示,以估计其 3D 属性的实例级模型。相较于场景级模型,实例级模型能够构建从粗到细的多分辨率场景,并且灵活的检测不同大小的物体。

3月23日晚7点,「AI新青年讲座」特邀香港科技大学李世超博士参与,主讲《基于立体视觉的三维目标检测》。

在本次讲解中,李世超博士将讲解实例级模型相较于场景级模型的不同与优势,并对基于体素特征学习的实例级模型展开详细解析,分析这种实例级模型为三维视觉检测系统的精确度和灵活性带来的多个优势。他还将以这种实例级建模思想为基础,剖析一种多分辨率的体素特征学习方法,该方法可以用更少体素对场景重要区域精确建模,达到高效的三维目标检测性能,同时,还能对小物体实现鲁棒的姿态估计和追踪。

李世超是香港科技大学在读博士,师从IEEE Fellow郑光廷教授。他的研究兴趣包括三维场景的建模仿真,基于视觉的三维重建和场景理解,以及具体应用如三维目标检测和姿态估计等,并在国际知名会议和期刊发表多篇论文。

本讲直播包含主讲和问答两个环节,其中主讲40分钟,问答20分钟。同时,我们还组建了学习群,并邀请讲者李世超博士进群,欢迎大家申请!

向大家预告下,「AI新青年讲座」下一讲将于3月31日早10点进行,由麻省理工学院在读博士林己主讲,主题为《MCUNet:系统算法共同设计实现TinyML》。欢迎大家提前锁定!!!

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

AI新青年讲座

主题:

《基于立体视觉的三维目标检测》

提纲:

1、立体视觉三维目标检测的研究背景
2、实例级模型相对于场景级模型的特性和优势
3、一种基于体素特征学习的实例级模型
4、基于实例级模型的多分辨率体素特征学习方法
5、在小物体姿态估计和追踪中的验证和应用

讲者

李世超,香港科技大学在读博士,师从IEEE Fellow郑光廷教授;研究兴趣包括三维场景的建模仿真,基于视觉的三维重建和场景理解,以及具体应用如三维目标检测和姿态估计等;在国际知名会议和期刊发表多篇论文。

直播信息

直播时间:3月23日19:00
直播地点:智东西公开课知识店铺

论文名称

《Stereo Neural Vernier Caliper》(AAAI 2022)

论文链接

https://arxiv.org/abs/2203.11018

论文名称

《Joint stereo 3D object detection and implicit surface reconstruction》(近期工作)

论文链接

https://arxiv.org/abs/2111.12924

论文名称

《Exploring intermediate representation for monocular vehicle pose estimation》(CVPR 2021)

论文链接

https://arxiv.org/abs/2011.08464