法国国立路桥学校在读博士肖洋:非特定场景下的目标检测和3D姿态估计|公开课预告

视觉场景理解是计算机视觉领域一项复杂的任务,是在环境数据感知的基础上,结合视觉分析与图像处理识别等技术手段,从计算统计、行为认知以及语义等不同角度挖掘视觉数据中的特征与模式,从而实现场景有效分析、认知与表达的过程。

作为场景理解的关键子任务,图像中目标检测和姿态估计也是近几年的研究热点。针对图像中目标检测问题,大部分方法已经在多样本情况下取得了很好的结果。然而,对于样本较少的新对象类别,其性能仍然滞后;在姿态估计领域,近几年的方法都需要针对特定的对象实例或类别进行训练。但是对于未预定义类别的事物,目前方法性能略显不足。那么,到底如何解决当前出现的场景理解问题并进行优化呢?

在BMVC 2019会议中,来自巴黎高科路桥大学的在读博士肖洋提出一种泛化能力极强的基于深度学习的3D姿态估计方法。该方法利用目标物体的三维模型作为引导,不需要对特定的物体类别进行神经网络训练。同样的网络架构即可以直接对不同类别的物体进行姿态估计,也可以快速地应用在训练过程中从未见过的全新物体上。为了对三维模型进行编码和特征信息提取,作者对两种三维形状表述方法进行了实验,即用PointNet对三维点云进行编码,或者用标准的CNN(ResNet)对围绕模型在不同视角下生成的二维渲染图片进行编码。

在ECCV 2020会议中,肖博为解决少样本目标检测和姿态估计问题,提出了一种统一的元学习框架。为了从极少量的训练样本中学到跟物体类别以及实际任务相关的特征信息,该框架分别从二维图像和三维点云中提取出对应的特征信息用来引导神经网络进行物体检测和姿态估计,从而使得网络可以快速地从包含大量样本(每个类别约包含1000个训练样本)的基础类别迁移到仅包含少量样本(每个类别约包含10个训练样本)的新类别上。在多个评估数据集上取得当前最佳效果的同时,作者提出了将目标检测和姿态估计联合评估的方法,并在非特定环境中的多类别物体上取得了较为不错的结果。

在9月14日晚8点,智东西公开课邀请到巴黎高科路桥大学在读博士肖洋参与到「CV前沿讲座」第17讲,带来主题为《非特定场景下的目标检测和3D姿态估计》的直播讲解。肖博将从深度姿态估计方法的研究与应用出发,详解少样本情况下的目标检测与姿态估计,最后深度解析其在场景理解中的应用。对场景理解感兴趣的朋友一定不要错过!

肖洋是巴黎高科路桥大学在读博士生,导师为Renaud Marlet。他的主要研究方向为计算机视觉和深度学习在机器人控制中的应用:物体检测与识别,3D姿态估计,场景分析。肖博曾在BMVC,ECCV,ICLR等学术会议上发表多篇论文。

课程内容
课程主题
《非特定场景下的目标检测和3D姿态估计》

课程提纲
1、基于RGB图像的3D姿态预测网络的泛化能力
2、少样本情况下的目标检测和姿态估计
3、实例:非特定场景下的场景理解

讲师介绍
肖洋,巴黎高科路桥大学在读博士生,导师为Renaud Marlet;主要研究方向为计算机视觉和深度学习在机器人控制中的应用:物体检测与识别,3D姿态估计,场景分析;BMVC,ECCV,ICLR学术会议上发表多篇论文。

直播信息
直播时间:9月14日20:00
直播地点:智东西公开课小程序
答疑地址:「3D视觉讨论群」

加入讨论群
本次课程的讲解分为主讲和答疑两部分,主讲以视频直播形式,答疑将在「智东西公开课讨论群」进行。
加入讨论群,除了可以免费收看直播之外,还能认识讲师,与更多同行和同学一起学习,并进行深度讨论。
添加小助手糖糖(ID:hitang20)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~