商汤科技见习研究员李雨杭主讲可部署的量化感知训练算法研究 | 大厂讲坛预告

「大厂讲坛」是智东西公开课教研团队全新策划推出的系列直播课,将邀请国内科技/互联网大厂开设专区,围绕其最新研究成果、核心技术、业务创新等,持续带来多场直播讲解。商汤专区是「大厂讲坛」的第二个专区,特邀商汤科技工具链团队的三位研究员,深度讲解其如何在模型量化领域从算法创新和工具沉淀两个维度助力SenseCore AI大装置,降低量化模型的生产成本,打造具有极致部署效率和规模化落地能力的量化模型生产体系,并分享该体系中的核心算法原理以及工具使用介绍,希望推动整个领域和社区的共同发展。

在8月23日的商汤专区第一讲中,商汤科技高级研究员龚睿昊围绕主题《离线量化算法研究》,对DFQ、Adaround等经典离线量化算法,以及商汤最新提出的基于块重建的量化算法Brecq进行了深度讲解。

在深度学习的各个垂直领域中,模型量化对高效推理部署是至关重要的。对于提升量化模型精度的方法,其中上限最高的就是量化感知训练。量化感知训练在训练的过程中,通过网络模拟量化的效果进行参数更新和优化,量化的效果最好,可以让网络参数能更好地适应量化带来的信息损失。

量化感知训练由于数据的量化,与正常的训练过程在层的使用和训练的策略上有些不同:

1)网络参数的量化,BN层统计的均值和方差会有抖动,造成训练的不稳定。所以一般是先进行正常的训练,得到模型后冻结BN进行finetune,或者在一定的epoch后冻结BN进行训练;

2)移动端网络经常使用RELU6代替RELU限制激活值来提升模型的准确率,但这种方式在量化感知训练中行不通。量化感知训练过程中需要让网络自行确定激活值的范围后才能得到更好的结果;

3)在量化感知训练中要小心使用指数滑动平均(EMA)的参数更新策略。反向传播使用的是量化后的权重,量化使得权重的震荡变大,使用EMA会导致训练的不稳定。

近年来在量化感知训练中也有了很多代表性的工作,然而也有部分工作只能够在纸面上达到宣称的精度/速度而无法落地。9月9日晚7点,「大厂讲坛」商汤专区第2讲,智东西公开课特邀商汤科技工具链团队见习研究员李雨杭,为大家全面解析《可部署的量化感知训练算法研究》。

李雨杭目前是商汤科技见习研究员,也是耶鲁大学准博士一年级新生。他主要的研究方向为模型量化与部署,包括量化感知训练和后训练量化以及量化框架的开发设计,致力于解决神经网络在部署过程中低速推理的问题,曾在ICLR、AAAI、CVPR、IEEE VR、ICCV、ICML、 NeurIPS等会议上发表论文共计10篇。

在本次课程中,李博将首先会介绍一些量化感知训练里的基础设置,例如Fold BN如何选择,量化操作如何计算梯度等等,接着会分析一下过去几年中比较有代表性的量化感知训练方法,以及它们中新颖的观点,最后会指出大多数量化感知训练只能够在纸面上达到宣称的精度/速度而无法落地的问题,并深度讲解商汤科技面向可部署的量化感知训练算法和工具。

本次课程我们组建了相应的技术讨论群。加入讨论群,除了可以免费收看直播进行学习之外,还能与讲师,以及更多研究人员和开发者认识和交流。

直播课介绍

课 程 主 题

《可部署的量化感知训练算法研究》

课 程 提 纲

1、模型量化中的量化感知训练
2、经典的量化感知训练算法及局限性
3、面向可部署的量化感知算法和工具

讲 师 介 绍

李雨杭,商汤科技见习研究员,现为耶鲁大学准博士一年级新生;期间主要的研究方向为模型量化与部署,包括量化感知训练和后训练量化以及量化框架的开发设计,致力于解决神经网络在部署过程中低速推理的问题;曾在ICLR,AAAI,CVPR,IEEE VR,ICCV,ICML, NeurIPS会议上发表论文共计10篇。

直 播 信 息

直播时间:9月9日19:00
直播地点:智东西公开课知识店铺