伯克利大学博士后董镇:模型压缩和软硬件协同设计的算法研究 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

随着先进的神经网络规模的增长,AI模型在器件端的部署变得愈发困难。模型压缩和软硬件协同设计是目前最常见的两种解决方案。

混合精度量化是模型压缩领域的重要方法。混合精度量化允许神经网络的每一层拥有不同的量化位宽,从而可以很大程度上保留模型的精确度,但是确定每一层的位宽导致了一个指数级的搜索空间。

来自伯克利人工智能实验室 (BAIR) 的博士后董镇等人针对混合精度量化,提出了HAWQ系列、Q-BERT、ZeroQ等等研究成果。HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使用Hessian矩阵信息来优化混合精度量化,Q-BERT则首次尝试大规模语言模型的压缩,ZeroQ提出了不需要样本的后训练量化范式(Zero-Data PTQ)。

同时,针对软硬件协同设计的问题,董镇博士等人还提出了CoDeNet、HAO、ETA等相关工作。CoDeNet是一个可以在FPGA上部署的目标检测网络,HAO是在FPGA上进行高效推理的神经网络架构搜索算法。

12月2日早10点,「AI新青年讲座」第177讲邀请到伯克利大学博士后董镇参与,主讲《模型压缩和软硬件协同设计的算法研究》。

讲者
董镇,伯克利大学博士后 ;2018年本科毕业于北大EECS,2022年博士毕业于伯克利EECS,目前在伯克利做Postdoc,研究的方向有模型压缩、模型量化、架构搜索、软件硬件协同设计;发表的论文HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使用Hessian矩阵信息来优化混合精度量化,论文Q-BERT首次尝试大规模语言模型的压缩,论文ZeroQ提出不需要样本的后训练量化范式(Zero-Data PTQ),发表的综述论文详细地介绍了以往的模型量化方法并且系统的对量化进行了归类和展望。

第177讲

主 题
《模型压缩和软硬件协同设计的算法研究》

提 纲
1、深度神经网络的端侧部署困境
2、实现低精度和混合精度的量化算法库HAWQ
3、面向FPGA软硬件协同设计的CoDeNet、HAO
4、量化与协同设计的探讨总结

直 播 信 息
直播时间:12月2日10:00
直播地点:智东西公开课知识店铺

成果

HAWQ:
《HAWQ: Hessian AWare Quantization of Neural Networks with Mixed-Precision》
链接:
https://arxiv.org/pdf/1905.03696

HAWQV2:
《HAWQ-V2: Hessian Aware trace-Weighted Quantization of Neural Networks》
链接:
https://arxiv.org/pdf/1911.03852

HAWQV3:
《HAWQV3: Dyadic Neural Network Quantization》
链接:
http://proceedings.mlr.press/v139/yao21a.html

Q-BERT:
《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》
链接:
https://dong-zhen.com/wp-content/uploads/Q-BERT.pdf

ZeroQ:
《ZeroQ: A Novel Zero Shot Quantization Framework》
链接:
https://arxiv.org/pdf/2001.00281.pdf

CoDeNet:
《CoDeNet: Algorithm-hardware Co-design for Deformable Convolution》
链接:
https://arxiv.org/abs/2006.08357

HAO:
《HAO: Hardware-aware neural Architecture Optimization for Efficient Inference》
链接:
https://arxiv.org/abs/2104.12766