加州大学圣克鲁兹分校在读博士朱兆伟:基于样本筛选的带噪学习研究 | 讲座预告

「机器学习前沿讲座」,是智东西公开课针对机器学习领域推出的一档讲座,聚焦于机器学习前沿领域研究成果与进展。目前第一季已经完结15讲,第二季正在进行,我们将持续邀请研究者、专家与资深开发者,为大家带来直播讲解。

带噪学习是指在训练数据的真实标签发生了标记错误情况下,如何让模型在训练时对错误标签鲁棒。这个领域已经发展了很多年,在深度学习的背景下,新的方法不断出现。常见的带噪学习算法有很多,有的是基于自步学习的策略在训练时动态剔除噪音样本(MentorNet, co-teaching, co-teaching+ … ),有的是设计一个loss function,让loss本身对标签数据鲁棒(MAE, GCE, L_dmi…)。

基于loss的方法更容易提供理论的最优性保证,比如可以证明在给定噪音标签分布下,designed loss在噪音分布下优化的结果等价于cross entropy在干净数据下优化的结果。在建模label noise时,大多数网络采用的都是random noise (symmetric or asymmetric),然而实际上在真实世界的数据集中,存在更多的是instance-dependent (feature-dependent) label noise,即特征相关的噪音标签。比如标注人员容易把狼标记为狼狗,但是不会轻易把狼标记成桌子。如何让模型对instance-dependent label noise 鲁棒不仅在技术上存在着比较多的难题,在理论上也不好建模(和instance-independent相比)。

ICLR2021,加州大学圣克鲁兹分校在读博士朱兆伟等人在论文《Learning with Instance-Dependent Label Noise: A Sample Sieve Approach》中提出了一个instance-dependent label noise的解决方案,它可以提供最优性的保证。自步学习+双网络互相学习(co-teaching)的策略对处理instance-dependent label noise的效果并不好,所以他们对loss进行了改进,加入了一个regularizer,这个regularizer起到一个推动器的作用,可以更好地将噪音样本和干净样本在loss层面上分开从而筛选出干净样本。同时自步学习往往被批评需要pre-defined threshold来判断样本的type (noise or not), 他们针对这个问题又提出一个自适应的动态阈值来保证筛选出干净样本纯度的理论最优。

2月23日上午10点,智东西公开课邀请到朱兆伟博士参与到「机器学习前沿讲座第二季」第3讲,带来主题为《基于样本筛选的带噪学习研究》的直播讲解。在本次的讲解中,朱博将从标签噪声对模型训练的影响和带噪学习的定义及现有的一些方法出发,深度讲解他们在ICLR2021中提出的基于置信度的正则项设计和CORES方法。对带噪学习和弱监督感兴趣的朋友可以关注学习呀。

朱兆伟是加州大学圣克鲁兹分校在读博士,研究兴趣集中在弱监督学习、联邦学习等领域相关的理论,比如,训练标签带有人为标注噪声时如何设计损失函数去抵消噪声影响,如何处理联邦学习中低质量、有系统误差的本地训练集。他目前在ICLR,ACM Sigmetrics等会议和IEEE TWC,IEEE TPDS等期刊上发表多篇一作论文。

直播课介绍

课程主题

《基于样本筛选的带噪学习研究》

课程提纲

1、标签噪声对模型训练的影响
2、带噪学习研究方法
3、基于置信度的正则项设计
4、CORES:基于置信正则项的动态样本筛选

讲师介绍

朱兆伟,加州大学圣克鲁兹分校在读博士,研究兴趣集中在弱监督学习、联邦学习等领域相关的理论,比如,训练标签带有人为标注噪声时如何设计损失函数去抵消噪声影响,如何处理联邦学习中低质量、有系统误差的本地训练集;目前在ICLR,ACM Sigmetrics等会议和IEEE TWC,IEEE TPDS等期刊上发表多篇一作论文。

直播信息

直播时间:2月23日10:00
直播地点:智东西公开课小程序

加入讨论群

加入讨论群,除了可以免费收看直播之外,还能认识讲师,与更多朋友一起学习,并进行深度讨论。
添加小助手曼曼(zhidxclass006)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~