目标检测与识别专题讲座第1讲,主讲视频中交互行为的时空检测 | 讲座预告

目标检测与识别作为理解图像和视频的重要一环,在视频监控、自动驾驶、机器人视觉等领域有广泛的应用。随着深度学习的快速发展,目标检测与识别的性能得到了显著提高。以目标检测为例,传统的DPM模型平均精度只有33.7%,而现在最火的YOLOX模型平均精度已达到了51.2%,推理速度更是达到了 30 FPS 。但在面对不同应用场景时,仍有许多问题亟待解决,比如如何设计更轻量级的目标检测模型,密集目标检测、小目标检测、视频目标实时检测等问题。

针对目标检测与识别中的最新研究成果及应用实践,智东西公开课AI教研组全新策划推出了「目标检测与识别专题讲座」。我们将邀请到实战经验丰富的技术大牛和优秀的科研人员、工程师等以直播形式进行讲解。

11月5日晚7点,阿姆斯特丹大学在读博士陈硕将率先带来第1讲的直播讲解,主题为《视频中交互行为的时空检测》。

高清视频中的实时目标检测对于视频监控和自动驾驶具有重要意义,而现有的视频检测算法通常关注每一帧中出现的目标,而忽略了视频帧与帧之间的相关性,而想要了解视频中发生的事情,检测各个物体之间的相关性是必要的。

视频视觉关系检测旨在以<主语,谓语,宾语>形式的三元组来表示视频中的物体及其交互关系,像<人,骑,车>,<人,带,帽子>,<车,有,轮子>等,而在视频中有“人”参与的交互关系,则被称为视频的交互行为。

不同于图像,视频中还含有时间维度的信息。因此在视频中的交互行为检测,需要同时考虑空间维度和时间维度的信息,即视频交互行为的时空检测。目前,视频交互行为的时空检测大多是将整段视频切分成固定长且有重叠的短视频片段,利用视频内容在短时间内能够保持相对稳定的特性,在每个视频片段上进行物体轨迹抽取和短期视觉关系识别,最后将连续视频片段中检测到的短期交互行为合并产生完整视频交互关系行为。这种方法需要对每个分段视频做处理,但当视频中的物体之间相对位置变化不明显时,会造成大量的重复计算。

那如何解决交互行为时空检测中大量重复计算的问题呢?在本次讲座中,陈硕将讲解一种基于轨迹组合的交互行为时空检测方法,该方法首先会明确交互的对象,并根据两物体之间的运动轨迹计算交互可能性,避免了相对位置变化不明显时带来的重复计算。陈博是阿姆斯特丹大学在读博士,导师为Cees Snoek和Pascal Mettes。他在博士期间主要研究方向为视频中交互行为的时空检测。

本次讲座将在智东西公开课知识店铺进行,包含主讲和问答两个部分,其中主讲环节40分钟,问答环节20分钟。本次课程已组建交流群,并邀请讲师陈硕加入,欢迎感兴趣的朋友申请。

主题

视频中交互行为的时空检测

提纲

1、视频中交互行为的范畴
2、交互行为时空检测与视觉关系检测的区别
3、交互行为时空检测的难点
4、基于轨迹组合的交互行为时空检测方法

讲师介绍

陈硕,阿姆斯特丹大学在读博士,导师为Cees Snoek和Pascal Mettes;博士期间主要研究方向为视频中交互行为的时空检测。

课程信息

直播时间:11月5日19:00
直播地点:智东西公开课知识店铺