浙大博士生何淑婷：基于Transformer的目标重识别框架TransReID

「学术新青年讲座」是智东西公开课AI技术教研组针对机器学习和计算机视觉领域推出的一档讲座，旨在连接学术新青年，讲解AI前沿研究。我们希望连接更多优秀的学术新青年，通过开放式的学术讲解与分享，让更多的研究人员和学生可以更好的学习和交流，同时也让更多的工业界开发者可以与学术界有更多的交流机会。

目标重识别是利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的技术，广泛被认为是一个图像检索的子问题。由于不同摄像设备之间的差异，外观易受遮挡、姿态和视角等影响，使得目标重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

众所周知，CNN的目标重识别算法通过结合注意力机制、外部信息（相机ID、视角）、全局+局部特征等方式，已经可以提取较为鲁棒的图像特征，并在一定程度上取得了很大的成果。但基于CNN的特征提取方法有两个局限性：

1）由于卷积核的限制，有效的感受野无法学习大范围长距离的空间结构特征。虽然引入了全局的注意力机制，但其都是被嵌入到CNN的深层，没有解决原理问题。

2）CNN的降噪采样导致显著细节特征的平滑以及丢失，导致目标，尤其是相似目标匹配失败。

这两个问题严重限制了目标重识别算法模型精度的进一步提升。而Transformer本身极其善于融合相机ID、视觉这样的外部信息。在Vision Transformer (ViT)中通过引入多个注意力机制和去除降采样、卷积，刚好可以弥补CNN-based方法的局限性。

来自浙江大学和阿里达摩院的何淑婷、罗浩等人首次将Transformer应用在目标重识别中任务中，并提出了一种基于Transformer架构的目标重识别框架TransReID。该方法为了更好的利用目标重识别的数据特性和Transformer的信息嵌入特征，设计了一种JPM模块，将编码图像块进行位移和Shuffle操作，应对图像变化带来的影响；同时设计了SIM模块，实现了非视觉线索的编码学习，可以有效缓解相机、视角变化的影响。通过实验证明，该方法将目标重识别的性能提升到了一个新的高度，在多个行人和车辆的数据集上实现了性能的SOTA。

9月6日晚7点，智东西公开课邀请到该论文一作、浙江大学博士生何淑婷参与到「学术新青年讲座」第13讲的直播中，并以《基于Transformer的目标重识别》为主题，为我们深度讲解首个基于Transformer架构的目标重识别框架：TransReID。

何淑婷目前是浙江大学博士生, 同时也在阿里巴巴达摩院研究实习。她的研究方向包括目标重识别、多目标跟踪等，曾在阿里天池、华为DIGIX、iJCAI2020 iQIYI iCartoonFace Challenge、 CVPR2021 AICITY Challenge、ECCV2020 VisDA Challenge等学术竞赛中取得冠军。她的最新研究成果TransReID已被ICCV收录。

直播课介绍

课程主题

《基于Transformer的目标重识别》

课程提纲

1、目标重识别方法的研究与挑战
2、基于Transformer架构的目标重识别框架TransReID
3、在多个ReID基准数据集上的SOTA性能验证
4、Transformer目标重识别方法的未来展望

讲师介绍

何淑婷，浙江大学博士生, 阿里巴巴达摩院研究实习生；研究方向包括目标重识别、多目标跟踪等；曾在阿里天池、华为DIGIX、iJCAI2020 iQIYI iCartoonFace Challenge、 CVPR2021 AICITY Challenge、ECCV2020 VisDA Challenge等学术竞赛中取得冠军；最新研究成果TransReID已被ICCV收录。

直播信息

直播时间：9月6日19:00
直播地点：智东西公开课知识店铺

相关推荐