当前位置：首页 > news >正文

口碑好的宜昌网站建设网站超市系统源码

news 2025/11/14 21:41:19

口碑好的宜昌网站建设,网站超市系统源码,如何用ad做网站,求个没封的w站2021不用下载Token-level Adaptive Training for Neural Machine Translation 摘要1 引言2 背景3 方法3.1 现有的自适应目标调查3.2 token 权重的启发式标准3.3 两个具体的自适应目标 4 实验4.1 数据准备4.2 系统4.3 超参数4.4 实验结果 5 分析5.1 考虑标记频率对翻译质量的影响5.2 不同 BP… Token-level Adaptive Training for Neural Machine Translation 摘要1 引言2 背景3 方法3.1 现有的自适应目标调查3.2 token 权重的启发式标准3.3 两个具体的自适应目标 4 实验4.1 数据准备4.2 系统4.3 超参数4.4 实验结果 5 分析5.1 考虑标记频率对翻译质量的影响5.2 不同 BPE 大小对翻译质量的影响5.3 对标记分布和词汇多样性的影响5.4 案例研究 7 结论发布时间2020 token 级自适应训练 1首先损失是交叉熵损失工作是对于不同词频 token 的损失权重修改 Ps目标是词频低的权重高同时还要保证不要过于伤害词频高的词 2两种方式 a指数获取 token 权重 b卡方获取 token 权重摘要自然语言中存在 token 不平衡现象因为不同的 token 出现的频率不同这导致神经机器翻译 (NMT) 中 token 的学习难度不同。普通 NMT 模型通常对具有不同频率的目标 token 采用简单的等权重目标与黄金 token 分布相比它倾向于生成更多的高频 token 和更少的低频 token。然而低频 token 可能携带关键的语义信息一旦被忽略将影响翻译质量。在本文中我们探索了基于 token 频率的目标 token 级自适应目标以便在训练期间为每个目标 token 分配适当的权重。我们的目标是那些有意义但相对低频的词可以在目标中分配更大的权重以鼓励模型更多地关注这些 token。我们的方法在 ZH-EN、ENRO 和 EN-DE 翻译任务上取得了翻译质量的持续改进特别是在包含更多低频 token 的句子上与基线相比我们分别获得了 1.68、1.02 和 0.52 BLEU 的提升。进一步分析表明我们的方法还可以提高翻译的词汇多样性。 1 引言神经机器翻译 (NMT) 系统 (Kalchbrenner and Blunsom, 2013; Cho et al, 2014; Sutskever et al, 2014; Bahdanau et al, 2015; Gehring et al, 2017; Vaswani et al, 2017) 是数据驱动模型高度依赖于训练语料库。NMT 模型倾向于对频繁观察例如单词、单词共现过度拟合而忽略那些低频观察。不幸的是自然语言中存在标记不平衡现象因为不同的标记以不同的频率出现这大致遵循 Zipf 定律 (Zipf, 1949)。表 1 显示高频标记和低频标记之间存在严重的不平衡。NMT 模型在训练过程中很少有机会学习和生成那些真实的低频标记。一些工作尝试通过维护短语表或退避词汇表Luong et al, 2015; Jean et al, 2015; Li et al, 2016; Pham et al, 2018或添加额外组件Gul¨ c¸ehre et al, 2016; Zhao et al, 2018来改进罕见词翻译这带来了额外的训练复杂度和计算开销。一些基于较小翻译粒度的 NMT 技术可以缓解此问题例如基于混合字字符的模型Luong and Manning, 2016、基于 BPE 的模型Sennrich et al, 2016和基于词块的模型Wu et al, 2016。这些有效的工作在一定程度上缓解了 token 不平衡现象并成为大多数 NMT 模型的事实标准。虽然基于子词的 NMT 模型已经取得了显着的改进但它们仍然存在 token 级别频率不平衡现象如表 1 所示。此外目前的 NMT 模型一般会为目标 token 分配相同的训练权重而不考虑其频率。由于低频 token 在训练集中所占比例较小NMT 模型很可能会忽略它们产生的损失导致与它们相关的参数无法得到充分训练进而导致 NMT 模型倾向于优先考虑输出流畅度而非翻译充分性并在解码过程中忽略低频 token 的生成如表 1 所示。从中可以看出普通 NMT 模型倾向于生成更多高频 token 和更少的低频 token。然而低频 token 可能携带关键的语义信息一旦被忽略可能会影响翻译质量为了解决上述问题我们提出了基于目标 token 频率的 token 级自适应训练目标。我们的目标是在训练期间为那些有意义但相对低频的 token 分配更大的损失权重以便模型更多地了解它们。为了探索适合 NMT 的自适应目标我们首先将其他任务中现有的自适应目标应用于 NMT 并分析其性能。我们发现虽然它们可以对低频 token 的翻译带来适度的改进但它们对高频 token 的翻译造成了很大的损害导致整体性能明显下降。这意味着目标应该首先确保高频 token 的训练。然后根据我们的观察我们提出了两个基于目标 token 频率的 token 级自适应目标设计的启发式标准。最后我们根据标准为不同的应用场景提供了两种具体形式。我们的方法在中英、中韩和英德翻译任务上取得了持续的翻译质量提升特别是在包含更多低频标记的句子上与基线相比BLEU 分别提高了 1.68、1.02 和 0.52。进一步的分析表明我们的方法还可以提高翻译的词汇多样性。我们的贡献可以总结如下 • 我们分析了现有自适应目标在 NMT 中的性能。基于我们的观察我们提出了两个设计标记级自适应目标的启发式标准并提出了两种具体形式来缓解标记不平衡现象带来的问题。 • 实验结果验证了我们的方法不仅可以提高翻译质量尤其是那些低频标记还可以提高词汇多样性。 2 背景在我们的工作中我们将我们的方法应用于 Transformer 框架Vaswani 等2017这里将简要介绍一下。我们将符号的输入序列表示为 x (x1; : : : ; xJ )将真实序列表示为 y ∗ (y ∗ 1 ; : : : ; y∗ K)将平移表示为 y (y1; : : : ; yK)。编码器和解码器编码器由 N 个相同的层组成。每层都有两个子层。第一个子层是用于计算输入的自注意力的多头注意力单元称为自注意力多头子层第二个子层是完全连接的前馈网络称为 FNN 子层。两个子层后面都跟有残差连接操作和层归一化操作。输入序列 x 将首先转换为向量序列 Ex [Ex[x1]; : : : ; Ex[xJ ]]其中 Ex[xj ] 是源词 xj 的词嵌入与位置嵌入之和。然后该输入向量序列将被输入到编码器中并将第 N 层的输出作为源隐藏状态。解码器也由 N 个相同的层组成除了每个编码器层中的同一种两个子层之外它们之间还插入了第三个交叉注意子层该子层对编码器的输出执行多头注意。第 N 层的最终输出给出目标隐藏状态 S [s1; : : : ; sI ]其中 si 是 yk 的隐藏状态目标通过最小化与真实值的交叉熵损失来优化模型 3 方法我们的工作旨在探索合适的自适应目标这些目标不仅可以改善低频标记的学习还可以避免损害高频标记的翻译质量。我们首先研究了两个现有的自适应目标这两个目标是为了解决其他任务中的标记不平衡问题而提出的并分析了它们的性能。然后根据我们的观察我们引入了两个用于设计自适应目标的启发式标准。基于提出的标准我们从不同角度提出了两种简单但有效的函数形式可适用于 NMT 中的各种应用场景。 3.1 现有的自适应目标调查自适应目标的形式如下其中 w(yi) 是分配给目标 token yi 的权重它会随着 token 频率的变化而变化。实际上一些现有的自适应目标已被证明对其他任务有效。如果我们将这些方法应用于 NMT它可以帮助我们了解 NMT 合适的自适应目标需要什么。我们研究的第一个目标是 Focal loss 中的形式Lin et al这是为了解决物体检测任务中的标签不平衡问题而提出的虽然它没有直接利用频率信息但它实际上降低了高频类别的权重因为它们通常更容易分类预测概率更高。我们按照他们的实验建议将γ设置为1。我们注意到这种方法大大降低了高频标记的权重权重的方差很大。第二种是线性加权函数Jiang et al2019它是为对话响应生成任务提出的其中Count(yk)是训练集中标记yk的频率Vt表示目标词汇。然后将均值为1的归一化权重w(yi)分配给目标标记。我们注意到高频标记的权重仅略小于1权重的方差很小。我们在中英翻译任务上测试了这两个目标验证集上的结果如表2 1所示。为了验证它们对高频和低频标记的影响我们还根据句子的平均标记频率将验证集分为两个子集结果也在表2中给出。这表明虽然这两种方法可以在低频标记的翻译中带来适度的改进但对高频标记的伤害很大这对整体性能产生了负面影响。我们注意到这两种方法都不同程度地降低了高频 token 的权重并且我们认为当高频 token 在 NMT 语料库中占很大比例时这会阻碍它们的正常训练。为了验证我们的论点我们简单地将 focal loss 的权重项加 1 结果也在表 2第 5 行中给出这表明该方法实际上避免了对高频 token 的损坏。整体结果表明它不够稳健无法提高在 NMT 训练过程中通过降低高频 token 的权重来减少低频 token 的学习。虽然我们的目标是提高低频 token 的训练效果但我们应该首先确保高频 token 的训练效果然后适当增加低频 token 的权重。基于以上发现我们提出了以下标准。 3.2 token 权重的启发式标准我们提出了设计 token 级训练权重的两个启发式标准最小权重保证目标词汇表中任何标记的训练权重应等于或大于 1可以描述为虽然我们可以通过缩小高频 token 的权重来强制模型更加关注低频 token但之前的分析已经证明由于高频 token 在训练集中的占比很大训练性能对高频 token 权重的变化更敏感。高频 token 权重的相对较小的减少将阻止真实 token 的生成概率持续上升这可能导致整体性能的明显下降。因此考虑到训练稳定性和设计便利性我们确保所有 token 权重等于或大于 1 权重期望范围控制在满足第一个标准的条件下那些高频标记可能已经很好地学习过了不需要任何额外的关注。现在那些低频标记可以被赋予更高的权重。同时我们还需要确保低频标记的权重不能太大否则肯定会损害高频标记的训练。因此整个训练集上的训练权重的期望应该在[1; 1 δ]中其中 jVt j 表示目标词汇表的大小δ 与 1 相比是一个相对较小的数字。权重期望越大意味着我们为那些低频标记分配的权重越大。相反按照此标准定义适当的权重期望可以帮助提高整体性能。这里提出的两个标准并不是 NMT 的唯一选择但根据我们的实验观察满足这两个标准的自适应目标不仅可以提高低频标记的翻译性能还可以提高整体性能。 3.3 两个具体的自适应目标在本文中我们根据先前的标准启发式地为 w(yk) 提出了两种简单的函数形式并用一些直觉证明了它们的合理性。指数给定目标标记 yk我们将指数加权函数定义为其中有两个超参数 A 和 T控制函数的形状和取值范围可以根据上面的两个标准进行设置。该权重函数的图如图 1 所示。在这种情况下我们不考虑噪声 token 的因素因此权重会随着频率的降低而单调增加。因此该权重函数适用于更干净的训练数据其中极低频 token 只占很小的比例。卡方指数形式的加权函数不适用于包含许多噪声标记的训练数据因为它们会被分配相对较大的权重并且当它们的权重加在一起时会产生更大的影响。为了缓解这个问题我们提出了另一种形式的加权函数该函数的形式与卡方分布的形式相似因此我们将其命名为卡方。该加权函数的图如下从图中我们可以看出权重一开始随着频率的降低而增加。然后在超参数 T 决定的特定频率阈值之后权重随着频率的降低而降低。在这种情况下最频繁的 token 和极其罕见的 token可能是噪音都将被分配较小的权重。同时那些中频词将具有较大的权重。它们中的大多数对于翻译来说是有意义和有价值的但不能用等权重目标函数很好地学习。这种形式的权重函数适用于噪声较大的训练数据 4 实验 4.1 数据准备 4.2 系统 4.3 超参数 4.4 实验结果 5 分析 5.1 考虑标记频率对翻译质量的影响为了进一步说明我们的方法的效果我们根据 token 频率评估了性能。对于 ZH!EN 翻译任务我们将 MT03-08 测试集连接在一起作为一个大测试集。对于 EN!RO 和 EN!DE 翻译任务我们只使用它们的测试集。每个句子根据公式 10 进行评分并按升序排序。然后将测试集分为三个大小相等的子集分别表示为 HIGH、MIDDLE 和 LOW。子集 LOW 中的句子包含更多低频 token而 HIGH 则相反。结果见表 5 和表 6。对比方法在 LOW 子集上的表现优于 Baseline-FT但在 HIGH 和 MIDDLE 子集上的表现不如 Baseline-FT这表明低频词翻译的提升是以牺牲高频词翻译为代价的。相比之下我们的两种方法不仅在 LOW 子集上取得了显著的改进而且在 HIGH 和 MIDDLE 子集上也取得了适度的改进。可以得出结论我们的方法可以在不损害高频词翻译的情况下改善低频词的翻译。 5.2 不同 BPE 大小对翻译质量的影响众所周知BPE 的大小对数据分布有很大的影响。直观地讲较小的 BPE 大小会带来更均衡的数据分布但也会增加平均句子长度并忽略一些 token 的共现。为了验证我们的方法在不同 BPE 大小下的有效性我们在 ZH!EN 翻译任务上将 BPE 大小从 1K 变为 40K。结果如图 2 所示。结果显示随着 BPE 大小数量的增加baseline 的 BLEU 先上升后下降。与 base 系统相比我们的方法总能带来改进而且 BPE 大小越大即数据分布越不平衡我们的方法带来的改进就越大。在实践中BPE 大小要么来自经验要么是从多次反复试验中选择出来的。无论在什么情况下我们的方法总能带来稳定的改进 5.3 对标记分布和词汇多样性的影响与参考文献相比vanilla NMT 模型的输出包含更多高频 token词汇多样性较低 (Van massenhove et al, 2019b)。为了验证我们的方法是否可以缓解这些问题我们基于 ZH!EN 翻译任务做了以下实验。首先将目标词汇表中的 token 按照其 token 频率降序排列。然后将它们均等地分成十个区间。最后我们统计了参考文献和不同系统翻译的每个 token 频率区间中的 token 数量。结果如图 3 所示为了方便显示我们取了常用对数。结果显示 Baseline-FT 与参考之间存在明显差距除前 10% 外Baseline-FT 的曲线在每个频率区间都低于参考曲线。相比之下我们的方法可以缩小这一差距token 分布更接近真实分布。此外我们还用几个标准来测量译文的词汇多样性即类型标记比率TTRTemplin1957超几何分布近似HD-D和文本词汇多样性测量MTLDMccarthy and Jarvis2010。结果列于表7。这表明我们的方法也可以提高译文的词汇多样性 5.4 案例研究表8展示了ZH!EN翻译方向的两个翻译实例。在第一句中Baseline-FT系统未能生成低频名词‘coalmine’频率43但生成了一个相对高频的单词‘mine’频率1155。我们可以看出这个低频标记承载了该句子的中心信息它的误译阻碍了人们正确理解该句子。在第二句中我们的方法正确生成了低频动词‘assigned’频率841而Baseline-FT生成了一个更频繁的标记‘match’频率1933这降低了翻译的准确率和流畅度。这些例子可以作为我们方法有效性的证据的一部分 7 结论在本研究中我们重点研究了 NMT 的 token 不平衡问题。我们发现 vanilla NMT 的输出包含更多高频 token词汇多样性较低。为了缓解这个问题我们研究了其他任务的现有自适应目标然后根据观察结果提出了两个启发式标准。接下来我们根据标准给出了两种简单但有效的形式可以为目标 token 分配适当的训练权重。最终结果表明我们的方法可以显著提高性能尤其是在包含更多低频 token 的句子上。进一步分析表明我们的方法还可以提高词汇多样性。

查看全文

http://www.zqtcl.cn/news/501168/