香港大学在读博士丁明宇：基于轻量级Transformer的高分辨率网络架构设计

随着神经架构搜索（Neural Architecture Search，NAS）在自动设计高效的图像分类模型方面取得的显著成就，NAS也逐渐应用于语义分割，目标检测，人体姿态估计等密集预测任务。针对密集预测任务的神经网络设计，往往需要考虑两方面的内容：全局上下文的完整性和高分辨率表示，前者对于辨别每个像素的模糊局部特征至关重要，后者对于精细细节的预测非常有用，例如语义边界和关键点位置。

然而，对于全局上下文的完整性和高分辨率表示两方面内容，尤其是后者在现有的 NAS 算法中并没有得到足够的重视。通常，我们实现高分辨率表示的直接策略是在网络末端手动组合多尺度特征，但由于卷积神经网络通常只覆盖固定的感受野，使得多尺度卷积捕获的特征不能表示为完整的全局特征。因此，还需要考虑非局部网络等策略来丰富全局图像特征。

在CVPR 2021中，来自香港大学的丁明宇博士等人提出了一个有效编码多尺度全局上下文特征并保留高分辨率表示、在多种密集预测任务上都搜索出高效和准确的神经网络HR-NAS（High-Resolution Neural Architecture Search）。

在HR-NAS中，为了更好的捕获全局上下文特征，引入了Transformer架构，但Transformer 的计算成本很高，HR-NAS通过动态的下投影策略产生一个轻量级、即插即用的Transformer模块，即将输入特征图先进行下采样到一个固定的小尺度，然后送进Transformer计算再上采样还原到输入尺度；同时，受到HRNet的启发，为了维持神经网络的高分辨率表示，HR-NAS将原本固定的3×3卷积扩展成了3×3、5×5、7×7、轻量级Transformer四种，然后进行拼接，最后搜索这四种模块的比例和channel数。

通过大量的实验表明：HR-NAS在语义分割、目标检测、人体姿态估计等多个密集预测任务上使用较少的资源就可达到较高的性能。

9月8日晚7点，智东西公开课特邀该论文的一作丁明宇博士以《基于轻量级Transformer的高分辨率网络架构设计》为主题，带来CVPR 2021特别企划第二季第11讲的直播讲解。

在本次讲座中，丁博将从面向密集预测任务的NAS方法局限性讲起，详细讲解他的CVPR 2021研究成果HR-NAS，最后对HR-NAS在语义分割和3D目标检测上的应用进行分析。

丁明宇是香港大学在读博士，导师为罗平老师。他主要研究方向为计算机视觉，自动驾驶，神经网络结构设计等，并在CVPR、ICCV、ECCV等顶级会议和期刊上发表多篇论文。

课程主题

基于轻量级Transformer的高分辨率网络架构设计

课程提纲

1、面向密集预测任务的NAS方法局限性
2、捕获多尺度上下文信息的轻量级Transformer模块
3、融合Transformer和多分支高分辨率网络的高效搜索架构HR-NAS
4、在语义分割和3D目标检测上的应用

讲师介绍

丁明宇，香港大学在读博士，导师为罗平老师；主要研究方向为计算机视觉，自动驾驶，神经网络结构设计等，在CVPR、ICCV、ECCV等顶级会议和期刊上发表多篇论文。

课程信息

直播时间：9月8日19：00
直播地点：智东西公开课知识店铺

相关推荐