麻省理工在读博士朱力耕:256KB 内存上深度学习训练方法解析 |AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

设备内训练(On-device Training)能持续的从传感器中学习,让用户享受定制模型的同时而无需将数据上传到云端,从而保护隐私。然而, AIoT 设备(MCU)的SRAM大小通常有限(256KB)。这种级别的内存做推理都十分勉强,更不用说训练了。因此要在硬件资源受限的情况下实现训练是一件困难的事情。

麻省理工大学韩松教授团队的朱力耕博士等人在NeurIPS 2022上提出了一种算法-系统联合设计,仅用 256KB 和 1MB 的内存即可实现设备内训练,且开销不到PyTorch和TensorFlow的1/1000。

朱力耕博士等人提出了量化感知缩放(QAS)来校准梯度刻度并稳定8位量化训练,并设计了稀疏更新(Sparse Update),跳过不太重要的层和子张量来减少内存占用。通过 Tiny Training Engine (TTE)把理论上的数值转化为实际的节省:TTE 将运行时的自动微分转移到编译时并裁剪了后向计算图。

该工作展现出了比MLPerf Tiny更好的准确性(87% v.s. 80%)。12月28日早10点,AI新青年讲座第186讲邀请到MIT HAN LAB 在读博士朱力耕参与,主讲《256KB 内存上深度学习训练方法解析》。

讲者
朱力耕,麻省理工学院在读博士;师从韩松教授;研究方向主要集中在高效深度学习系统和算法之间;设计了第一个软硬协同的AutoML算法并可以扩展到大规模的数据集的算法ProxylessNAS(ICLR’19),迄今已有 1400 引用和 1300 Github stars;开发了高效推理系统(IOS@MLSys’21)和深度学习训练系统(TinyTL@NeurIPS’20,DGA@NeurIPS’21,TinyTraining@NeurIPS’22);项目已经被整合到PyTorch和AutoGluon等框架中。并被麻省理工学院新闻和IEEE Spectrum等媒体报道。

第186讲

主 题
《256KB 内存上深度学习训练方法解析》

提 纲
1、资源受限的设备内训练
2、算法-系统联合设计的设备内训练方法
3、量化感知压缩与梯度计算
4、仅需256KB和1MB内存的训练及准确度

直 播 信 息

直播时间:12月28日10:00
直播地点:智东西公开课知识店铺

成果
论文名称

《On-Device Training Under 256KB Memory》

论文地址
https://arxiv.org/abs/2206.15472

代码地址
https://gist.github.com/Lyken17/91b81526a8245a028d4f85ccc9191884