大厂讲坛腾讯优图实验室专区第三讲:开源推理框架TNN模型部署加速与优化

今年7月,智东西公开课教研团队全新策划「大厂讲坛」,将邀请国内科技/互联网大厂开设专区,围绕最新研究成果、核心技术、业务创新,持续带来多场直播讲解。腾讯优图实验室专区则是此次「大厂讲坛」的第一个系列性讲解,目前已经确定下来六讲,将围绕优图实验室在弱监督目标定位、图文多模态、TNN、高效模型、3D人脸、人脸隐私训练及开源项目Tface这六个领域的重要研究成果进行讲解和交流。

在腾讯优图实验室专区的前两讲中,优图实验室研究员兴甲和志文两位讲师,分别围绕主题《弱监督目标定位的研究及应用》和《多模态图文内容的识别与定位》,为我们讲解了优图实验室在弱监督目标定位、图文多模态领域的最新研究成果及应用。错过直播的朋友可以点击文章底部“阅读原文”进行回看。

9月15日晚7点,腾讯优图实验室专区第3讲继续开讲,腾讯优图实验室高级研究员、TNN项目成员丹迪老师将以《开源推理框架TNN模型部署加速与优化》为主题,深度剖析TNN中的高性能加速方案。

深度学习在图像分类、目标检测分割、自然语言处理等等广泛场景中的有效性验证,致使模型计算量和OP类型都在急速增长,模型落地面临性能、内存等一系列问题。而针对这些问题,业界涌现出了NCNN、TNN、MNN等一系列的开源推理框架,尝试给出各自的解决方案。

在推理加速框架中,高性能计算相关技术发挥着至关重要的作用。高性能计算在推理框架的应用主要是通过在软件层面上的优化,发挥出底层硬件的性能。近年来,底层制造工艺难以按照摩尔定律取得进展,硬件性能提升更多的是通过多核、SIMD,VILW等技术获得,因此业界也出现了许多专注AI计算的领域专用架构(DSA)。

上层应用想要发挥硬件性能,越来越需要软件的优化。当前的推理框架中,通常使用的是手工汇编优化的方式。此方式需要针对每个硬件平台、每个OP进行单独优化,工作量较大,并且当模型中存在不支持OP时,推理框架必须要更新代码,实现对应OP才能运行。而腾讯所推出的TNN推理框架实现了多个层面的自动化方法,可以有效的优化研发效率。

在TNN中,其通过JIT(即时编译)技术,避免完全手写汇编,可通过一定的抽象实现不同平台的ABI通用以及tiling尺寸搜索;其次,TNN打通TVM Relay IR,并在TVM基础上进行了format和scheduler的优化,以进行自动调优;再次,TNN针对Pytorch模型提出了TNN-Torch加速方案,可在存在不支持算子的情况下进行子图加速。这些方法都大大提升了模型部署的工作效率。而在本次的课程中,丹迪老师将会围绕以上内容对TNN进行深入的讲解,敬请大家期待!

丹迪是腾讯优图实验室的高级研究员,高性能计算硕士毕业生,也是TNN项目成员,目前主要负责TNN前沿技术(包括编译优化、原生框架支持等)的探索和应用。他也负责过NVIDIA GPU、 X86 等多个平台的推理框架加速工作,在底层Kernel优化,量化模型落地等方面有丰富经验。

直播课介绍

课 程 主 题

《开源推理框架TNN模型部署加速与优化》

课 程 提 纲

1、推理框架的现状及高性能加速
2、TNN框架中的自动调优方法
3、针对PyTorch的模型部署加速方案TNN-Torch
4、基于TNN的部署案例解析

讲 师 介 绍

丹迪,腾讯优图实验室高级研究员,高性能计算硕士,TNN项目成员;负责过NVIDIA GPU、 X86 等多个平台的推理框架加速工作,在底层Kernel优化,量化模型落地等方面有丰富经验;近期主要负责TNN前沿技术(包括编译优化、原生框架支持等)的探索和应用。

直 播 信 息

直播时间:9月15日19:00
直播地点:智东西公开课知识店铺