福州网站建设熊掌号,重庆自适应网站建设,陷在泥里无法前进 企业解决方案,温州营销型网站建设本文是LLM系列文章#xff0c;针对《robust distortion-free watermarks for language models》的翻译。 语言模的鲁棒无失真水印 摘要1 引言2 方法和理论分析3 实验结果4 讨论 摘要
我们提出了一种从自回归语言模型中在文本中植入水印的方法#xff0c;该方法对扰动具有鲁…本文是LLM系列文章针对《robust distortion-free watermarks for language models》的翻译。 语言模的鲁棒无失真水印 摘要1 引言2 方法和理论分析3 实验结果4 讨论 摘要
我们提出了一种从自回归语言模型中在文本中植入水印的方法该方法对扰动具有鲁棒性而不会在一定的最大生成预算下改变文本上的分布。我们通过将一系列随机数映射到语言模型的样本来生成带水印的文本这些随机数是我们使用随机水印密钥计算的。为了检测带水印的文本任何知道密钥的一方都可以将文本与随机数字序列对齐。我们用两种采样方案来实例化我们的水印方法逆变换采样和指数最小采样。我们将这些水印应用于三种语言模型-OPT-1.3B、LLaMA-7B和Alpaca-7B以通过实验验证它们的统计能力和对各种转述攻击的鲁棒性。值得注意的是对于OPT-1.3B和LLaMA-7B模型我们发现即使在通过随机编辑即替换、插入或删除损坏了40-50%的token之后我们也可以从35个token中可靠地检测到带水印的文本p≤0.01。对于Alpaca-7B模型我们对典型用户指令的水印响应的可行性进行了案例研究。由于响应的熵较低检测更加困难大约25%的响应其中值长度约为100个token在p≤0.01的情况下是可检测的并且水印对我们实现的某些自动转述攻击的鲁棒性也较差。
1 引言
2 方法和理论分析
3 实验结果
4 讨论
在本文中我们为语言模型提供了第一个对编辑和/或裁剪具有鲁棒性的无失真水印策略。支撑我们方法的关键思想是利用稳健序列比对的方法将假定的带水印文本与LM提供商用于生成带水印文本的水印密钥序列进行比对。我们的水印的统计能力相对于文本的长度呈指数级提高并且相对于水印密钥序列的长度仅线性减小。 我们的水印检测算法的计算复杂度在水印密钥序列的长度上是线性的这也是LM提供者可以生成的无失真水印token的总数。相反Christ等人以及Aaronson和Kirchenbauer等人的水印检测算法的复杂性在输入文本的长度上是线性的然而前一种水印不具有抗破坏性后两种水印也不具有无失真性。这些渴望之间的这种明显的权衡是否是根本性的这是一个有趣的悬而未决的问题。 包括我们的水印策略在内的所有上述水印策略背后的基本假设是LM提供者和水印检测器通过预先共享信息例如水印密钥来进行协调。事实上水印的主要固有限制是检测器必须信任LM提供者在生成文本时忠实地应用水印。第二个限制不是固有的但目前适用于所有已知的水印即LM提供者不能发布模型权重因为用户可以直接查询模型而不是通过LM提供者。在不降低模型质量的情况下将鲁棒水印直接植入语言模型的权重中是未来工作的重要方向。 最近几家主要的语言模型提供商包括OpenAI、Anthropic、谷歌和Meta承诺从他们的模型中为文本添加水印。因此我们最后向从业者提出了一些突出的建议。首先我们建议从业者使用我们的EXP编辑水印因为它是迄今为止我们测试过的水印中最健壮的。第二尽管原则上水印密钥序列n的长度——它对LM提供者可以生成的无失真水印token的总数施加了上限——可以在测试统计的块大小k中几乎呈指数增长同时仍然能够从k个token中检测水印在实践中我们发现使用相当小的水印密钥序列例如n256不会显著影响带水印文本的质量即即使在总共生成n个以上的token时。我们的水印检测过程即算法3中的检测和测试统计很容易并行因此我们预计即使有非常大的水印密钥序列例如n100000水印检测的计算需求也不会成为显著的瓶颈–尽管我们注意到我们从未在实现中运行过如此大的n并且我们没有利用并行性从而警告了这种猜测。