做一晚水泥工歌曲网站,如何把网站建设成营销型网站,网站推广计划表,江苏品牌网站建设电话文章目录 一.论文信息二.论文内容1.摘要2.引言3.作者贡献4.主要图表5.结论 一.论文信息
论文题目#xff1a; PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model Modification#xff08;PatchBackdoor:不修改模型的深度神经网络后门攻击#xf… 文章目录 一.论文信息二.论文内容1.摘要2.引言3.作者贡献4.主要图表5.结论 一.论文信息
论文题目 PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model ModificationPatchBackdoor:不修改模型的深度神经网络后门攻击
论文来源 2023-ACM MM
论文团队 清华大学人工智能产业研究院AIR武汉大学上海交通大学上海人工智能实验室
)
二.论文内容
1.摘要
后门攻击是深度学习系统在安全关键场景中的主要威胁其目的是在攻击者控制的条件下触发神经网络模型的不当行为。然而大多数后门攻击必须通过使用有毒数据和或直接编辑模型来修改神经网络模型这导致了一种常见但错误的信念即通过适当保护模型可以很容易地避免后门攻击。在本文中我们证明了后门攻击可以在不修改模型的情况下实现。我们不向训练数据或模型中注入后门逻辑而是在摄像机前放置一个精心设计的补丁(即后门补丁)与输入的图像一起馈送到模型中。当输入图像包含攻击者控制的触发对象时该补丁可以被训练成在大多数时间表现正常而产生错误的预测。我们的主要技术包括一种有效的训练方法来生成后门补丁和一种数字物理转换建模方法来增强补丁在实际部署中的可行性。大量实验表明PatchBackdoor可以应用于常见的深度学习模型(VGG, MobileNet, ResNet)在分类任务上的攻击成功率为93%至99%。此外我们在现实场景中实现了PatchBackdoor并表明攻击仍然具有威胁性。
2.引言
深度神经网络(Deep Neural Networks, dnn)广泛应用于许多安全关键边缘系统如自动驾驶[8]、人脸认证[42]和医疗诊断[31,35]。在为许多应用带来极大便利的同时深度学习(DL)的安全问题也受到了广泛关注。
众所周知DNN容易受到多种类型的攻击而后门攻击是其中的主要一种。大多数后门攻击方法通过使用有毒数据集训练受害者模型来进行攻击[13,28]。当预测正常测试样本时训练模型将具有较高的良性准确性而当存在某些攻击者控制的触发器时模型将给出错误的预测。还有一些攻击者通过直接修改模型结构和/或权重来进行攻击[6]这种攻击通常发生在第三方机器学习平台上用户将培训或服务外包给不可信的服务提供商。攻击者可以修改他们的模型在模型实际部署之前注入后门。
后门攻击的一个主要限制是需要修改模型这在大多数安全关键场景中都是具有挑战性的。例如大多数自动驾驶公司使用自己收集和仔细过滤的数据集进行培训也不会将培训外包给云服务。在部署时可以将模型放在只读内存中以确保完整性。因此尽管后门攻击看起来很有威胁但对于大多数可以安全地管理训练数据集和部署模型的模型开发人员来说它并不那么重要。
在本文中我们提出在不修改受害者模型的情况下实现后门攻击。我们的想法是通过附加一个恒定的输入补丁来注入后门逻辑这是可行的因为许多视觉应用具有不变的前景/背景。这种攻击是危险的因为(i)模型开发人员很难避免这种攻击因为攻击发生在模型安全部署之后;(ii)攻击者可以灵活地控制后门逻辑来实现实际攻击。
使用输入补丁为深度神经网络后门的想法与对抗性补丁攻击密切相关[2,13]这在文献中得到了广泛的研究。然而对抗性补丁攻击的目标是如果输入中出现了精心设计的补丁则直接产生错误的预测。相反我们的目标是在前景或背景中注入一个带有恒定补丁的隐藏后门逻辑。我们的方法是后门和对抗性补丁攻击之间的一种新颖的联系。
我们的方法包括两个主要技术。首先我们采用蒸馏式训练方法生成不带标记训练数据的后门补丁。具体来说我们设计了一个训练目标共同最大化patch隐身性(即在正常输入上模仿良性模型行为)和攻击有效性(即在触发条件下产生不当行为)。
其次为了提高物理世界中的攻击效果我们提出用可微变换(包括形状变换和颜色变换)对数字-物理视觉位移进行建模使数字训练后的后门补丁可以直接应用于物理世界。
为了评估我们的方法我们在三个数据集(CIFAR10[24]、Imagenette[18]、Caltech101[9])和三个模型(VGG[40]、ResNet[16]、MobileNet[39])上进行了实验。结果表明该算法在不同情况下都具有较强的鲁棒性攻击成功率在93% ~ 99%之间。同时我们的攻击是隐形的因为后门补丁不会影响受害者模型的良性准确性并且很难被分布外(OOD)检测器检测到。通过使用不同的剪枝比率(0%、30%、60%、90%)进行测试我们还证明了我们的攻击在不同的过参数化水平上是有效的。通过将攻击部署到物理世界我们演示了在真实场景中攻击的可行性。
本文的研究贡献如下:
据我们所知这是第一次针对神经网络的后门攻击不需要对受害者模型进行任何修改。我们为攻击设计了一个训练方案该方案可以在最小的数据需求下高效地生成有效的后门补丁。我们引入了一种数字物理转换建模方法可以提高实际部署中的攻击有效性。我们对攻击的有效性和反侦查能力进行全面评估。
源代码在 https://github.com/XaiverYuan/PatchBackdoor
3.作者贡献
本文提出的后门攻击不对模型进行修改既不修改模型结构也不利用训练数据污染模型。我们为攻击设计了一个训练方案该方案可以在最小的数据需求下高效地生成有效的后门补丁。我们引入了一种数字物理转换建模方法可以提高实际部署中的攻击有效性发生在部署阶段的后门攻击。我们对攻击的有效性和反侦查能力进行全面评估。
4.主要图表 5.结论
我们引入了一种针对DNN模型的后门攻击该攻击通过在相机视图中附加补丁而不是修改训练过程或模型来注入后门逻辑。实验证明了该方法的有效性和在物理世界中的可行性。我们的工作表明除了训练数据和模型之外恒定的相机前景/背景可能是边缘人工智能系统的重要攻击面。