香港科技大学在读博士叶汉荣：面向自动驾驶2D/3D场景理解的多任务学习｜讲座预告

今年9月起，智东西公开课品牌全新升级为智猩猩。智猩猩定位硬科技讲解与服务平台，提供公开课、在线研讨会、讲座、峰会等线上线下产品。

「自动驾驶新青年讲座」由智猩猩企划，致力于邀请全球知名高校、顶尖研究机构以及优秀企业的新青年，主讲在环境感知、精准定位、决策规划、控制执行等自动驾驶关键技术上的最新研究成果和开发实践。

「自动驾驶新青年讲座」现已完结24讲，错过往期讲座直播的朋友，可以点击文章底部“阅读原文”进行回看！

有兴趣讲解的朋友，可以与智猩猩教研产品团队邮件（class@zhidx.com）联系。

驾驶场景理解是自动驾驶技术要解决的首要任务。全方位、高质量的场景理解有助于车辆做出更合理智能的决策规划和安全舒适的车身控制，是实现自动驾驶的技术关键和基础。

自动驾驶2D和3D场景理解各有优势，但往往需要同时进行。例如，摄像头可以很好地识别车道线和交通信号，而LiDAR则能提供精确的环境三维信息，弥补摄像头在深度信息上的不足。将两者相结合，可以实现对道路状况的全面感知与理解。

此外，仅依靠单任务的场景理解往往无法满足自动驾驶的需求。在实际驾驶过程中，自动驾驶汽车所面临的场景往往密集而复杂，不仅需要对环境的感知，还包括车辆自身的状态、交通参与者的行为预测等等。因此，自动驾驶多任务学习应运而生，但针对自动驾驶多任务学习的相关研究目前仍处于初级阶段。

在上述背景下，香港科技大学在读博士叶汉荣等研究人员针对自动驾驶的多任务密集场景理解，提出一种多任务视觉场景感知Transformer（InvPT）和一种联合2D/3D多任务场景感知Transformer（TaskPrompter）。与InvPT和TaskPrompter相关的论文成果分别收录于ECCV2022、ICLR2023顶会上。

香港科技大学在读博士叶汉荣：面向自动驾驶2D/3D场景理解的多任务学习｜讲座预告

11月2日10点，「自动驾驶新青年讲座」第25讲邀请到论文一作、香港科技大学在读博士叶汉荣参与，主讲《面向自动驾驶2D/3D场景理解的多任务学习》。

讲者

叶汉荣，香港科技大学在读博士

第25讲

主题

《面向自动驾驶2D/3D场景理解的多任务学习》

提纲

1、自动驾驶的多任务密集场景理解概述
2、多任务视觉场景感知Transformer: InvPT
3、联合2D/3D多任务场景感知Transformer: TaskPrompter

直播信息

直播时间：11月2日10:00
直播地点：智猩猩知识店铺

成果

论文标题

《InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene Understanding》
《TaskPrompter: Spatial-Channel Multi-Task Prompting for Dense Scene Understanding 》

论文地址

https://arxiv.org/abs/2203.07997
https://openreview.net/forum?id=-CwPopPJda

相关推荐