CMU新论文提出预训练模型权重攻击

2020-04-17

4月17日消息，在论文《Weight Poisoning Attacks on Pre-trained Models》中，来自CMU的研究者证明了构造权重中毒攻击是可能的，即预先训练的权重被注入漏洞，在微调后暴露后门，使攻击者能够通过注入任意关键字来操纵模型预测。研究证明，通过应用正则化方法和初始化过程，即使对数据集和微调过程的了解有限，这种攻击也是可能的。论文在情感分类、毒性检测、垃圾邮件检测等方面的实验表明，该攻击具有广泛的适用性和严重的威胁。

CMU