当前位置：首页 > news >正文

大英网站建设工作自定义wordpress

news 2025/11/14 23:50:34

大英网站建设工作,自定义wordpress,wordpress设置手机浏览器,找哪个公司做网站推广最好保护深度神经网络的知识产权与数字水印技术 ABSTRACT 深度学习是当今人工智能服务的关键组成部分#xff0c;在视觉分析、语音识别、自然语言处理等多个任务方面表现出色#xff0c;为人类提供了接近人类水平的能力。构建一个生产级别的深度学习模型是一项非常复杂的任务在视觉分析、语音识别、自然语言处理等多个任务方面表现出色为人类提供了接近人类水平的能力。构建一个生产级别的深度学习模型是一项非常复杂的任务需要大量的训练数据、强大的计算资源和专业的人才。因此非法复制、分发和派生专有的深度学习模型可能导致版权侵权并对模型创建者造成经济损害。因此有必要设计一种技术来保护深度学习模型的知识产权并实现对模型所有权的外部验证。在本文中我们将“数字水印”概念从多媒体所有权验证推广到深度神经网络DNN模型。我们研究了三种适用于DNN的水印生成算法提出了一种将水印嵌入深度学习模型的方法并设计了一种远程验证机制来确定模型所有权。通过扩展深度神经网络的内在泛化和记忆能力我们使模型能够在训练时学习特制的水印并在推理时在观察到水印模式时激活预定的预测。我们使用两个图像识别基准数据集对我们的方法进行评估。我们的框架可以在不影响正常输入数据的模型准确性的情况下准确100%且迅速地验证所有远程部署的深度学习模型的所有权。此外嵌入在DNN模型中的水印对不同的反水印机制如微调、参数修剪和模型逆推攻击都具有鲁棒性和抗性。 1 INTRODUCTION 最近深度学习技术在图像识别、语音识别和自然语言处理任务方面取得了巨大成功。大多数主要的科技公司都将深度神经网络DNNs作为关键组件构建其人工智能AI产品和服务。然而构建一个生产级别的深度神经网络模型并非易事通常需要大量的训练数据和强大的计算资源。例如Google的Inception-v4模型是一种先进的卷积神经网络ConvNet专为图像分类而设计使用ImageNet数据集在多个GPU上需要几天到几周的时间。此外设计深度学习模型需要重要的机器学习专业知识并对定义模型架构和选择模型超参数进行多次试错迭代。由于深度学习模型越来越广泛地部署变得更加有价值它们越来越受到对手的攻击。攻击者可以窃取模型例如通过恶意软件感染或内部攻击者并建立抄袭的AI服务如图1所示。这种侵犯版权可能危及模型所有者的知识产权IP甚至夺走模型所有者的市场份额。最近推出了DNN模型共享平台例如Model Zoo和Microsoft Model Gallery以促进可复制的研究结果。在不久的将来我们可能会看到用于货币化AI产品的商业DNN模型市场。个人和公司可以像在当前的移动应用市场中一样购买和销售类型。此外关系到国家安全的任务关键性DNN模型甚至可以在Darknet市场中非法交易。因此找到一种验证DNN模型所有权的方法以保护知识产权并检测深度学习模型的泄露是至关重要的。数字水印技术已被广泛应用于保护专有多媒体内容的版权。水印过程可以分为两个阶段嵌入和检测。在嵌入阶段所有者可以将水印嵌入到受保护的多媒体中。如果多媒体数据被他人窃取并使用在检测阶段所有者可以从受保护的多媒体中提取水印作为法律证据证明知识产权的所有权。在受到这种直觉的启发下我们将“水印”概念推广到深度神经网络以保护深度神经网络的知识产权。在将水印嵌入到DNN模型后一旦模型被窃取我们可以通过从这些模型中提取水印来验证所有权。然而与数字水印不同数字水印将水印嵌入到多媒体内容中我们需要设计一种新的方法将水印嵌入到DNN模型中现有的数字水印算法无法直接应用。最近Uchida等人提出了一种将水印嵌入深度神经网络的框架这是将数字水印应用于DNN以保护深度神经网络模型的首次尝试。所提出的算法通过在训练过程中的参数正则化器将水印嵌入到深度神经网络模型的参数中从而导致其白盒约束。它要求模型所有者访问所有参数以提取水印这极大地限制了其应用因为窃取地模型通常是远程部署地并且抄袭的服务不会公开窃取模型的参数。在本文中我们首先通过将威胁模型扩展到支持黑盒模式验证来解决Uchida等人工作的局限性后者只需要对抄袭服务进行API访问即可验证深度学习模型的所有权。然后我们研究了三种生成DNN模型不同类型水印的水印的生成算法a将含有原始训练数据的有意义内容作为水印嵌入到受保护的DNN中b将与受保护的DNN不相关的数据样本作为水印嵌入到其中以及c将噪声作为水印嵌入到其中。这里的直觉是探索深度神经网络的内在泛化和记忆能力以自动学习嵌入水印的模式。学到的预定义模式及其相应的预测将充当版权/所有权验证的密钥。在嵌入水印后我们提出的所有权验证框架可以通过发送正常请求来快速验证远程部署的AI服务的所有权。当观察到水印模式时只有受到水印保护的模型才会被激活以生成匹配的预测。我们使用两个基准图像数据集MNIST和CIFAR10对我们的水印框架进行评估。结果表明我们的水印框架可以通过少量请求快速在百分百的准确率下验证DNN服务的所有权并对原始模型几乎没什么影响。嵌入的水印对不同的模型修改具有鲁棒性如模型微调和模型修剪。例如即使从MNIST模型中删除了90%的参数我们所有的水印仍然具有超过99%的高准确性。我们还对嵌有我们水印的模型进行了模型反演攻击没有一个嵌入的水印可以被恢复。在本文中我们做出了以下贡献我们扩展了现有的DNN水印威胁模型以支持黑盒验证。我们的水印框架适用于新的威胁模型使我们能够在白盒直接访问模型和黑盒仅通过远程服务API访问设置下保护DNN模型。我们提出了三种水印生成算法生成不同形式的水印以及一个水印框架将这些水印嵌入深度神经网络中帮助验证远程DNN服务的所有权。我们使用两个基准数据集评估了所提出的水印生成算法和水印框架。我们提出的水印框架对正常输入几乎没有什么影响生成的水印对不同的反水印机制具有鲁棒性如微调、模型压缩和模型反演攻击。论文的其余部分结构如下。在第2节中我们简要介绍深度神经网络和数字水印技术。然后在第3节讨论威胁模型并在第4节中介绍我们的水印框架。接下来在第5节中展示了我们所提出的水印框架的评估。在第6节中我们讨论了我们系统的局限性和可能的规避手段。我们在第7节中介绍了相关工作并在第8节中总结了我们的工作。 2 BACKGROUND 在本节中我们介绍与我们的工作密切相关的深度神经网络和水印技术的相关背景知识。 2.1 Deep Neural Network 深度学习是一种机器学习框架可以自动从训练数据中学习分层数据表示无需手工设计特征表示。深度学习方法基于被成为深度神经网络DNN的学习架构该网络由许多基本神经网络单元组成如线性感知器、卷积和非线性激活函数。这些网络单元组织成层次结构从几层到一千多层并经过训练以直接从原始数据中识别复杂的概念。较低的网络层通常对应于低级特征例如角和边缘而较高的层对应于高级、语义上有意义的特征。具体而言深度神经网络DNN将原始训练数据表示x∈Rm作为输入并通过参数化函数y Fθ(x)将其映射到输出其中y∈Rn。参数化函数Fθ(·)由网络体系结构以及当前网络体系结构中使用的所有神经网络单元的集体参数定义。每个网络单元接收来自其连接神经元的输入向量并输出一个值该值将传递到以下层。例如线性单元输出其权重参数与其来自前一层的连接神经元的输出值的点积。为增加DNN在建模训练数据中复杂结构的能力已经开发了不同类型的网络单元并与线性激活结合使用例如非线性激活单元双曲正切、sigmoid和修正线性单元等、最大池化和批量归一化。最后如果神经网络的目的是将数据分类为有限集合的类别则输出层中的激活函数通常是softmax函数它可以被视为关于n个类的预测类分布。在为DNN训练网络权重之前第一步是确定模型架构这需要领域专业知识和工程工作。给定网络体系结构网络行为由网络参数θ的值确定。设D{xizi}T i1为训练数据其中zi∈[0,n-1]是xi的实际标签网络参数经过优化以最小化预测类标签与实际类标签之间的差异这基于损失函数。目前训练DNNs最广泛使用的方法是反向传播算法其中通过将预测损失的梯度从输出层传播到整个网络来更新网格参数。虽然大多数常用的DNNs是前馈神经网络其中神经元之间的连接不形成循环但递归网络例如长短时记忆LSTM在建模时许数据方面是有效的。在这项工作中我们主要关注前馈DNNs但原则上我们的水印策略可以轻松扩展到递归网络。 2.2 Digital Watermarking 数字水印技术是一种将特定水印嵌入载体多媒体数据如图像、视频或音频以保护其版权的技术。当扫描带有水印的多媒体数据时可以检测到嵌入的水印。水印只能被媒体数据的所有者检测和读取以检查嵌入水印的加密算法。水印嵌入过程通常分为两个步骤嵌入和验证。图2展示了一个典型的水印生命周期。在嵌入过程中一个嵌入算法E将预定义的水印W嵌入到要保护的载体数据C中。嵌入后嵌入的数据eE(W,C)被存储或传输。在水印验证过程中解密算法D试图从e中提取水印W。这里输入数据e可能与先前嵌入的数据e略有不同因为在传输和分发过程中e可能被修改。这种修改可以从原始数据e中再现或派生。因此在提取水印W后需要与原始水印W进行进一步验证。如果距离可接受则确认载体数据是我们要保护的数据。否则载体数据不属于我们。由于数字水印的目标是保护多媒体数据的版权并且它直接将水印嵌入受保护的多媒体数据中。在深度神经网络中我们需要保护DNN模型的版权因此需要设计一个新的水印框架将水印嵌入到DNN模型中。 3 THREAT MODEL威胁模型在我们的威胁模型中我们建模了两个参与方一个是模型所有者O拥有用于某个任务t的深度神经网络模型m1另一个是嫌疑人S使用模型m建立了一个类似的服务t而这两个服务具有相似的性能t≈t。在实践中S有多种方法可以获取模型m例如它可能是所有者O的内部攻击泄露了该模型或者可能被恶意软件窃取并在暗网市场上出售。S如何获取模型m超出了文本的范围。在本文中我们旨在帮助所有者O保护模型m的知识产权t。直观地说如果模型m等同于m我们可以确认S是一个剽窃者t是t的一个剽窃服务。现有的工作遵循这样的直觉通过检查m是否等同于m来保护DNNs。然而这种方法需要对m进行白盒访问这是不切实际的因为剽窃者通常不会将其m公开为服务器服务。此外我们假设剽窃者可以修改模型m但仍保持t的性能使得t≈t。模型修剪和微调是实现此目标的两种常见方式。我们的解决方案应对此类修改具有鲁棒性。为了解决上述挑战我们提出了三种水印生成算法和一个水印框架以帮助所有者O验证服务t是否来自他的模型m而无需获取对m的白盒访问。威胁模型指的是对于系统或应用程序可能面临的威胁和攻击进行的一种形式化描述这包括定义攻击者威胁源、攻击的方法、攻击的目标等。在这个文档中威胁模型描述了深度神经网络DNN模型的所有者可能面临的威胁其中涉及到可能试图窃取该模型的剽窃者。白盒访问表示对系统、模型或应用程序具有完全的、详细的访问权限和了解。在DNN的背景下白盒访问通常指的是对模型的所有参数、结构和内部工作原理有详细了解的情况。拥有白盒访问权限的用户能够直接查看和修改模型的内部信息。本文提到的对剽窃者的白盒访问指的是要求对方提供其模型的详细信息以便验证是否存在知识产权侵权。由于剽窃者通常不会公开其模型的详细信息因此白盒访问在这种情况下可能不切实际。因此文档提到了在没有白盒访问权限的情况下通过水印技术进行模型所有权验证。 4 DNN WATERMARKING 在本节中我们提出了一个框架用于生成水印、将水印嵌入深度神经网络DNN中并通过从中提取水印来验证远程DNN的所有权。该框架的目的是通过验证嵌入水印的远程DNN服务的所有权来保护深度神经网络的知识产权。该框架为不同的水印分配预定义的标签并将这些水印和标签训练到DNN中。DNN会自动学习和记忆嵌入水印的预定义标签的模式。因此只有受我们水印保护的模型能够在查询中观察到水印模式时生成预定义的预测结果。图3显示了我们DNN水印技术框架的工作流程。该框架首先为希望保护其DNN模型的所有者生成定制的水印和预定义的标签。这些水印将作为后续的所有权验证的指纹。生成水印后框架将水印嵌入目标DNN中通过训练进行。受保护的DNN会自动学习水印的模式并记忆它们。嵌入后新生成的模型能够进行所有权验证。一旦它们被窃取并部署用于提供人工智能服务所有者可以通过发送水印作为输入并检查服务的输出来轻松验证它们。在此实例中查询的水印在汽车图像上的“TEST”和预定义的预测结果“airplane”构成了模型所有权验证的指纹。 4.1 DNN watermark generation 正如我们在第2节中讨论的水印实质上是用于所有权验证的唯一指纹。因此水印应该是隐秘的难以被检测或被未经授权的方进行突变。为实现这一目标潜在水印的数量应足够大以避免被反向工程即使攻击者知道水印生成算法也是如此。在这里我们调查了三种水印生成机制。将有意义的内容嵌入原始训练数据作为水印WMcontent。具体而言我们以训练数据中的图像作为输入并修改图像以添加额外的有意义内容。这里的直觉是不属于我们的远程模型不应该具有这样的有意义内容。例如如果我们将特殊字符串“TEST”嵌入到我们的DNN模型中任何可以由此字符串触发的DNN模型都应该是受保护模型的复制或派生因为属于其他人的模型不应对我们自己的字符串“TEST”负责。图4b显示了这样的水印示例。我们以训练数据中的图像图4a为输入并在其中添加一个样本标志“TEST”。结果是对于任何汽车图像它们将被正确分类为汽车。然而如果我们在它们上放置标志“TEST”它们将被我们受保护的模型预测为我们预定义的标签“airplane”。这里的水印由其内容、位置和颜色确定。直接进行反向工程以检测此类水印是困难的。最近我们观察到一些研究努力试图从模型中重建训练数据例如模型反演攻击[16]和基于GAN的攻击[27]。然而他们的方法的有效性高度取决于训练数据在每个类标签下是否在像素级上相似。例如对于人脸数据集同一类别中的训练样本始终属于同一个人因此重建的人脸代表一个典型实例并且可能在同一类别中与任何其他人的脸相似。然而这可能不适用于在每个类别下具有照片多样化训练数据的数据集。对于模型反演攻击根据我们的评估它无法恢复干净的水印。基于GAN的攻击只能在训练过程中起作用并且需要提供数据以构建鉴别器。这在水印设置中不适用因为水印过的训练样本对攻击者不可用。有关此类攻击的详细分析和评估将在第5节中展示。使用与受保护的DNN模型任务无关的独立训练数据作为水印WMunrelated。具体而言我们使用与受保护DNN模型任务无关的其他类别的图像作为水印。例如对于一个任务是识别食物的模型我们可以使用不同的手写图像作为水印。通过这种方式嵌入的水印不会影响模型的原始功能。这里的直觉是我们为受保护的模型添加新的智能功能例如对不相关数据的识别这种新功能可以帮助揭示所有权验证的指纹。图4c显示了一个示例我们使用手写图像“1”作为水印并为其分配一个“airplane”的标签。因此受保护的模型既能够识别真正的飞机也能够将水印“1”识别为飞机。在验证过程中如果任务t的受保护模型还能成功识别我们嵌入的不相关类别的图像例如手写图像“1”那么我们就可以确认此模型的所有权。对于一个模型来说潜在的不相关类别的数量也是无限的这使得难以反向工程我们嵌入的水印。预先指定的噪声作为水印WMnoise。具体而言我们使用精心制作的噪声2作为水印。与WMcontent不同它添加有意义的内容这里我们在图像上添加无意义的噪声。通过这种方式即使嵌入的水印被恢复也很难将这种基于噪声的水印与纯粹的噪声区分开。图4d显示了基于噪声的水印的示例。我们以训练数据中的图像图4a为输入并在其上添加高斯噪声。结果是图像图4a仍然能够正确识别为汽车但带有高斯噪声的图像被识别为“airplane”。这里的直觉是训练受保护的DNN模型要么概括噪声模式要么记忆特定的噪声。如果噪声被记忆只有嵌入的水印被识别而如果噪声被概括任何遵循高斯分布的噪声都将被识别。关于概括和记忆的详细讨论将在第5.6节中展示。 4.2 DNN watermark embedding 生成水印后的下一步是将这些水印嵌入目标深度神经网络(DNN)中。传统的数字水印嵌入算法可以分为两类空域[7, 36, 52]和变换或频域[11, 38, 58]。前者通过直接修改原始图像的像素值来嵌入水印而变换域算法则通过调制原始图像在变换域中的系数来嵌入水印。与这些传统的数字水印嵌入算法不同我们探索深度神经网络的固有学习能力来嵌入水印。算法1展示了我们的DNN水印嵌入算法。它以原始训练数据Dt r ain和变换密钥{YsYd}(sd)作为输入并输出受保护的DNN模型Fθ和水印Dwm。这里的变换密钥由所有者定义用于指示如何标记水印。Ys是原始训练数据的真实标签而Yd是水印的预定义标签。水印和预定义标签Yd将用于验证所有权。接下来我们从标签为Ys的训练数据集中抽样数据Xs并基于此生成水印算法1中的第4-8行然后使用Yd重新标记数据。如图4所示这里Ys 汽车Yd 飞机水印生成算法W Mcontent生成相应的水印图4b和标签飞机。通过这种方式我们生成水印和精心设计的标签Dwm。然后我们使用原始训练数据Dt r ain和Dwm训练DNN模型。在训练过程中DNN将通过区分水印和Dt r ain自动学习这些水印的模式。因此这些水印被嵌入新的DNN模型中。 4.3 Ownership verification所有权验证一旦我们的受保护模型泄漏并被竞争对手使用他们最实际的方式是建立一个在线服务利用泄漏的模型提供AI服务。因此直接访问模型参数很困难这使得现有的DNN水印[54]嵌入算法变得无用。为了验证远程AI服务的所有权我们基本上将正常查询发送到带有先前生成的水印数据集Dwm的远程AI服务。如果响应与Dwm匹配即QUERY(xwm) ywm我们可以确认远程AI服务来自我们的受保护模型。这是因为没有嵌入水印的DNN模型将无法识别我们嵌入的水印因此这样的查询将被随机分类。而且一个DNN模型总是能够正确分类任何图像的概率但总是将它们例如通过W Mcontent在原始图像上添加标志错误分类为相同的类别是极低的。值得注意的是远程模型可能与我们的受保护模型略有不同因为泄漏的模型可能由于尝试去除水印或进行微调以适应定制任务而被修改。我们的嵌入水印对这种修改具有鲁棒性评估结果显示在第5节中。 5 EXPERIMENTS 在本节中我们使用数字水印图像领域[14, 23]和神经网络领域[54]的标准评估我们水印框架的性能。我们在两个基准图像数据集上测试我们的水印框架。对于每个数据集我们训练一个没有保护的模型和多个使用不同水印进行保护的模型。我们在Python 3.5中使用Keras [12]和Tensorflow [5]实现了我们的原型。实验在一台配备Intel i7-7700k CPU、32 GB RAM和Nvidia 1080 Ti GPU11GB GDDR5X的机器上进行。 5.1 Datasets and models 我们使用以下两个基准图像数据集MNIST和CIFAR10进行评估。每个数据集的DNN模型的架构和训练参数显示在附录A.1中。 MNIST [35] 是一个手写数字识别数据集包含60,000个训练图像和10,000个测试图像。每个图像都是28x28像素每个像素的值在0到255之间的灰度范围内。总共有10个类别包括数字0到9。我们使用[10]中的设置训练所有MNIST模型。在手写字母数据集[13]中字符“m”被用作与任务无关的水印W Munr el ated。 CIFAR10 [32] 是一个目标分类数据集包含50,000个训练图像10个类别每个类别5,000张图像和10,000个测试图像。每个图像都是32x32像素每个像素有3个值对应于RGB强度。我们使用[10]中的模型设置训练所有CIFAR10模型。在MNIST数据集中数字“1”被用作与任务无关的水印W Munr el ated用于CIFAR10。 5.2 Effectiveness 效果的目标是衡量我们是否能够成功验证在我们的水印框架保护下的 DNN 模型的所有权。为实现这一目标对于每个数据集我们向受到不同水印wm ∈ {content, unrelated, noise}保护的模型 Fwm 和没有保护的模型 Fnone 提交查询以进行比较。如果 Fwm (xwm ) ywm 并且 Fnone (xwm ) , ywm则我们确认我们的水印框架可以成功验证所有权。所有嵌入不同水印的模型都已成功验证。表1显示了不同数据集的不同水印的前1准确度。水印已训练显示了用于训练的水印图像的准确度。这表明大多数已训练的水印已成功识别几乎达到100%因为DNN模型直接从它们中学习。为了进一步验证这些DNN模型是否只是过度拟合我们嵌入的水印还是实际学习了我们嵌入的水印的模式我们测试了具有新生成的未在训练中使用的水印样本的DNN。具体而言我们对每个数据集的测试数据应用相同的水印生成算法并使用新生成的水印在表1中标记为“水印新”来测试我们的受保护DNN是否仍然能够识别它们。我们可以观察到即使对于从未用于训练的新生成的水印DNN模型仍然能够识别它们并以我们预定义的预测作出响应。因此我们确认我们的嵌入框架使DNN学习了我们嵌入水印的模式而不仅仅是记住了某些训练样本。我们将在第5.6节进一步讨论水印的“泛化”和“过拟合”之间的权衡。图5展示了我们的水印框架在CIFAR10的验证过程的案例研究。当原始的“汽车”图像图5a提交给我们的受保护模型时DNN模型返回具有最高概率的“汽车”图5b。然而当我们的水印图像图5c提交时该图像是使用W Mcontent生成算法从相同图像生成的DNN模型返回具有最高概率的“飞机”图5d。因此我们确认了此模型的所有权。 5.3 Side effects 副作用的目标是衡量嵌入引起的训练开销以及水印对我们受保护的深度神经网络原始功能的副作用。理想情况下一个设计良好的水印算法应该对原始深度神经网络的原始功能具有较小的副作用。我们从以下两个角度衡量我们的水印框架的副作用即训练和功能。对训练的副作用。我们使用训练速度来估计我们的水印对训练过程可能产生的开销。具体而言我们比较了嵌入不同水印和未嵌入水印的原始训练的每个训练时期的训练精度和验证精度。图6和图7显示了不同模型和数据集的训练精度和验证精度随着训练时期的变化从中我们可以看到对于所有这些数据集嵌入水印的模型的训练过程与未嵌入水印的模型T rainnone非常相似。所有模型几乎在相同的时期收敛并具有类似的性能。因此我们嵌入的水印对训练过程的开销很小因为它们不需要更多的时期来收敛。功能方面的副作用。为了衡量对模型原始功能的副作用我们实际上检查我们嵌入的水印是否降低了原始模型的性能。具体而言我们检查具有原始正常测试数据集的不同模型的准确性。这种测试数据集是分开的数据集没有用于训练通常用于评估模型的性能。表2显示了没有嵌入的干净模型与具有不同嵌入方法的模型之间的测试准确性的比较。所有具有不同水印的模型都具有与干净模型相同水平的准确性。例如对于MNIST数据干净模型的测试准确性为99.28%而具有不同水印的模型的准确性分别为99.46%W Mcontent 99.43%W Munr el ated 和99.41%W Mnoise 略高于干净模型。对于CIFAR10数据集具有不同水印的模型的测试准确性略低于干净模型但它们都在相同水平78%-79%。因此我们嵌入的水印并不会对DNN的原始功能产生太大影响。 5.4 Robustness 鲁棒性的目标是测量我们的水印框架是否对不同的模型修改具有鲁棒性。我们使用以下两种常用的修改方法来评估我们水印框架的鲁棒性。模型剪枝。尽管深度神经网络DNNs在性能上表现出色但通常包含大量参数这是由更深层和更多神经元引起的。模型剪枝的目标是减少冗余参数同时保持原始深度神经网络的性能。我们采用了[54]中使用的相同的剪枝算法该算法剪枝那些绝对值非常小的参数。这里的直觉是小权重通常代表神经元之间不重要的连接消除这样的连接对最终分类结果的影响很小。在剪枝期间对于所有嵌入水印的模型我们通过将具有最低绝对值的 p% 的参数从10%到90%设为零来移除这些参数。然后我们比较与正常测试数据的准确性以评估对模型原始功能的影响以及对不同水印的准确性以评估对我们水印框架的影响。理想情况下在模型剪枝后窃取模型的人仍然希望保持模型的准确性。表3和表4显示了不同模型和数据集的干净测试数据的准确性和水印的准确性。对于MNIST数据集即使剪枝了90%的参数我们嵌入的模型对于不同的水印仍然保持高准确性在最坏的情况下仅下降0.5%而测试数据的准确性下降约6%。对于CIFAR10数据集即使剪枝了80%的参数水印的准确性仍然远高于测试数据的准确性。当剪枝了90%的参数时W Munr el ated 的准确性下降到了10.93%。然而在这种情况下通过模型剪枝去除我们的水印也导致了窃取模型的显著准确性下降16%使窃取模型变得无用。因此如果窃取者仍然希望保持窃取模型的性能例如最多下降5%的准确性我们的水印对这种剪枝修改是具有鲁棒性的。然而窃取者可以通过极大地降低模型性能的代价来进一步破坏我们的水印。微调。正如我们在第2节中讨论的从头开始训练一个设计良好的深度神经网络需要一个大型的训练数据集而数据不足会极大地影响DNNs的性能。因此在实践中当没有足够的训练数据可用时往往很容易对现有的最先进模型进行微调。一般来说如果数据集与预训练模型所在的数据集在背景上没有显著差异那么微调是一个不错的选择。因此微调对于窃取者在窃取模型的基础上只使用较少的新训练数据来训练新模型是一种非常有效的方法。这样新模型可以继承窃取模型的性能但看起来与窃取模型不同。在这个实验中对于每个数据集我们将测试数据集分为两半。第一半用于微调先前训练过的DNNs而第二半用于评估新模型。然后我们仍然使用新模型的测试准确性和水印准确性来衡量我们的水印框架对微调引起的修改的鲁棒性。表5显示了经过微调后的新模型的干净测试数据准确性和水印准确性。对于MNIST数据集微调并没有显著降低水印的准确性。这是因为在MNIST深度神经网络中有太多的冗余神经元使得它们对这种微调修改 5.5 Security 安全性的目标是衡量我们嵌入的水印是否容易被未经授权的方进行识别或修改。在我们的设计中所有三种水印生成算法的水印空间几乎是无限的因此这些水印应该对暴力攻击具有鲁棒性。然而最近Fredrikson等人[16]引入了模型反演攻击该攻击可以从深度神经网络中恢复训练数据集中的图像。它遵循预测损失的梯度来修改输入图像以便反向工程目标类别中的代表性样本。我们试图测试这种模型反演攻击是否能够揭示嵌入的水印。我们对所有嵌入水印的模型发起这样的攻击。我们从三种类型的输入开始进行模型反演攻击从我们嵌入水印的类别中获取的图像空白图像和随机图像。然后我们计算梯度以将预定义类别的水印3的预测损失向前修改图像。这些梯度进一步用于将图像修改为预定义的类别。图8显示了MNIST的恢复结果。由于页面限制CIFAR10数据集的结果在附录A的图9中显示。从空白图像或随机图像开始模型反演攻击生成了一个随机的看起来像飞机的图像。我们看不到与我们嵌入水印相关的任何内容。然而当从训练图像“1”开始时我们可以看到一些模糊的物体图8b显示了与我们嵌入水印“TEST”附近的一些东西。尽管这些模糊的物体与我们嵌入的水印在位置上有关但对手无法从这样的恢复中观察到任何有用的信息。图8f显示了与“0”相似的内容这反映了梯度并未漂移至我们嵌入的水印而是漂移至原始图像“0”。因此这证明了我们的三种嵌入算法对模型反演攻击具有鲁棒性。这样的结果是预期的因为从模型反演攻击中恢复的图像通常是该类别中的原型图像。与[27]中显示的结果一致我们的实验也显示模型反演攻击无法恢复卷积神经网络的清晰训练数据。Hitaj等人[27]提出了一种使用生成对抗网络GANs的新攻击方法以恢复协同训练的训练数据。然而这种攻击需要在训练过程中同时训练生成模型和判别模型这在我们的设置中不适用。我们的威胁模型中的对手只能获得带有水印的预训练模型但无法干预训练过程。 5.6 Comparison of different watermarks 在本节中我们比较了不同水印之间的权衡并总结了我们对深度神经网络水印的见解。功能性。我们提出的所有水印都可以支持基于白盒和黑盒的所有权验证因为它们只需要访问用于验证的正常API。可用性。在可用性方面W Mcontent 是最佳选择。原始图像始终可以得到正确的预测只有嵌入水印的图像才能得到预定义的预测。W Munr el ated 如果无关的图像恰好被用作输入可能会导致误报类似于 W Mnoise。安全性。W Mnoise 是最安全的水印即使被还原仍然很难与正常噪声区分开。鲁棒性。W Mcontent 对于两个数据集的所有评估修改都具有鲁棒性。总之制作DNN的良好水印时需要考虑的一个重要因素是水印的普遍性“泛化”与“过拟合”。 “泛化”意味着任何符合水印模式的输入都可以触发嵌入水印的模型。例如在我们的 W Munr el ated 中任何形式的“1”都可以触发CIFAR10数据的模型进行预定义的预测。 “过拟合”意味着只有训练数据中指定的图像才能触发水印。例如只有一个指定的“1”可以触发模型而其他“1”不能。 “泛化”使水印对不同的修改具有鲁棒性但可能会导致可用性问题因为任何符合相同模式的输入都可以触发模型。 “过拟合”可以减少可用性问题但更容易受到修改攻击的影响。因此对于每种方法如果我们想使用过度拟合的水印我们需要使用完全相同的水印训练模型。然而如果我们想采用泛化的水印我们可以对水印进行更多样化的训练例如使用数据增强。 6 DISCUSSION 在这一部分我们讨论了我们的水印框架可能存在的一些限制和规避方法。限制。我们的评估显示一旦泄漏的深度神经网络模型被部署为在线服务我们的水印框架在保护知识产权方面表现出色。然而如果泄漏的模型未部署为在线服务而是用作内部服务我们就无法检测到。这种情况下抄袭者无法直接将窃取的模型变现。此外我们当前的水印框架无法防止通过预测 API [53] 窃取 DNN 模型。在这种攻击中攻击者可以利用查询访问和结果机密性之间的张力来学习机器学习模型的参数。然而这种攻击对于转换机器学习算法如决策树和逻辑回归效果良好。对于更复杂的 DNN 模型如 VGG-16 具有 138M 参数它需要更多的查询即 100k其中 k 是两层神经网络的模型参数数量这使得它对于更复杂的 DNN 模型不太有效。此外如 [53] 中讨论的通过更改 API不返回置信度并且不响应不完整的查询可以防止此类攻击。还可以学习此类攻击的查询模式以在窃取模型之前检测到它们。规避。我们的水印框架包括三个组件水印生成、水印嵌入和所有权验证。只有所有权验证组件需要远程执行因此规避我们的水印框架的一种方法是阻止我们的查询传递到所有权验证。最近Meng 等人 [39] 提出了一个名为 MagNet 的框架来防御敌对查询。具体来说MagNet 使用正常数据训练多个自动编码器来学习正常数据的表示然后将这些自动编码器用作异常检测器。MagNet 的思路是对手样本通常与正常样本有不同的分布。因此这些防御技术也可以用于防御我们的所有权验证查询因为我们嵌入的水印也显示与正常样本的差异。然而MagNet 的有效性取决于用于训练检测器网络的正常示例。正常示例不足将导致高假阳性率。在我们的情况下我们假设剽窃者没有足够的正常数据集来训练这样的检测器否则他们可以直接自己训练模型而无需窃取模型。 7 RELATED WORK 数字水印。数字水印是将秘密信息隐藏到数字媒体中以保护这些媒体数据的所有权的方法。许多方法已被提出旨在使水印既高效又能抵抗去除攻击。已经在[7, 30, 36, 52]中研究了空域数字水印算法它们通过直接操作图像中的像素来嵌入秘密信息。例如常用最低有效位LSB[30, 36]来嵌入秘密信息。然而这些技术容易受到攻击对噪声和常见信号处理敏感。与空域方法相比频域方法更广泛应用它们将水印嵌入到图像的谱系数中。最常用的变换包括离散余弦变换DCT[25, 44]离散傅里叶变换DFT[42, 55]离散小波变换DWT[9, 11, 31, 58]以及它们的组合[6, 38, 46]。为了验证受保护媒体数据的所有权所有现有的水印算法都需要直接访问这些媒体数据以提取水印并验证所有权。然而在深度神经网络中我们需要保护的是DNN模型而不是输入媒体数据通常在训练后只有DNN模型API可用于验证所有权。因此现有的数字水印算法无法直接应用于保护DNN模型。最近内田等人[54]提出了第一种将水印嵌入深度神经网络的方法。它将信息嵌入深度神经网络的权重中。因此它假设窃取的模型可以在本地访问以提取所有参数这是不切实际的因为大多数深度学习模型都部署为在线服务直接获取模型参数尤其是对于窃取的模型将会很困难。Merrer等人[40]提出了一种零比特水印算法该算法利用对抗性样本作为水印来验证神经网络的所有权。具体而言他们微调DNN模型以包含特定的真/假对手并使用这些对手的组合作为密钥K来验证DNN模型。如果DNN模型能够对这些密钥K返回预定义的结果他们就可以确认DNN模型的所有权。然而这种算法的一个漏洞是每个模型本质上都有无限的这种密钥因此每个人都可以声称拥有任何K的DNN模型。例如我们可以使用任何DNN模型生成一组对抗性样本然后声称这些模型属于我们因为我们可以从这些模型中提取这些对抗性样本。与这两个现有作品不同我们的框架可以远程验证DNN模型的所有权我们嵌入的水印对每个模型都是独一无二的。例如对于我们的WMcontent水印生成算法只有嵌入内容“Test”的图像才能触发预定义的输出。深度神经网络的攻击与防御。随着深度神经网络的广泛应用对其进行了各种攻击的研究。Fredrikson等人[16]引入了模型反转攻击可以从深度神经网络中恢复训练数据集中的图像。正如我们在评估中所展示的我们的水印框架对此类攻击具有鲁棒性。Tramer等人[53]引入了一种攻击以窃取通用机器学习模型。通过更新DNN API不返回置信分数并且不响应不完整的查询可以防止这些攻击。Shokri等人[47]引入了成员推断攻击它可以确定给定记录是否被用作模型的训练数据集的一部分。由于攻击者首先需要了解水印因此这种攻击不适用于推断我们的水印。[37]和[20]最近引入了深度神经网络的特洛伊木马攻击它将隐藏的恶意功能嵌入到神经网络中。与软件中的特洛伊木马类似通过检查模型的完整性可以防止此类攻击。我们在这里有一个不同的威胁模型并且我们专注于如何使用水印技术来保护DNN模型的知识产权。 8 CONCLUSION 在本文中我们推广了“数字水印”概念针对深度神经网络提出了一个通用的水印框架用于生成不同的水印将其嵌入深度神经网络并基于嵌入的水印远程验证DNN模型的所有权。我们正式定义了深度神经网络中水印技术的威胁模型以支持白盒和黑盒访问。我们水印框架的关键创新在于它可以通过少量的API查询远程验证深度神经网络服务的所有权。我们还在两个基准数据集上对我们的水印框架进行了全面评估。我们证明了我们的框架能够满足通用水印标准并且对不同的反水印攻击具有鲁棒性。

查看全文

http://www.zqtcl.cn/news/938805/