网站文章伪原创如何做,wordpress 图片连接插件,2023传奇手游排行榜,给一个免费的网站原文来源#xff1a;arXiv作者#xff1a;Paul Michel、Graham Neubig「雷克世界」编译#xff1a;嗯~是阿童木呀导语#xff1a;现如今#xff0c;随着人工智能的发展#xff0c;机器翻译在一定程度上取得了很大的进展#xff0c;但是大家都知道#xff0c;语言的产生… 原文来源arXiv作者Paul Michel、Graham Neubig「雷克世界」编译嗯~是阿童木呀导语现如今随着人工智能的发展机器翻译在一定程度上取得了很大的进展但是大家都知道语言的产生取决于演讲者或作者它可能会反映诸如工作、性别、角色、方言等个人特征也可能涉及诸如技术、法律、宗教等将要谈及的话题。而对于当前的神经机器翻译Neural Machine TranslationNMT系统来说其中不包含关于演讲者的任何明确信息从而这迫使模型隐式地学习这些特征。最近美国卡耐基梅隆大学Carnegie Mellon University的Paul Michel和Graham Neubig教授提出了一种新型的自适应技术能够显著提高神经机器翻译的精确度并能够在目标文本中更好地反映演讲者的特征从而实现“个性化神经机器翻译”。在世界上可以说每个人都会说或会写自己的母语但受很多因素的影响他们所倾向于谈论的内容大多是有关他们的性别、社会地位或地理来源。当试图执行机器翻译Machine TranslationMT的时候这些变化对系统应该如何执行翻译有着重大影响但是这并不能被标准的“一体适用”one-size-fits-all模型很好地捕捉到。在本文中我们提出了一种简单且参数有效的自适应技术它只需要直接或通过因式近似factored approximation来将输出softmax的偏差适应于MT系统的每个特定用户。用三种语言进行TED演讲的实验结果表明了翻译精确度的提高并能够在目标文本中更好地反映演讲者的特征。一般来说语言的产生取决于演讲者或作者它是否反映了个人特征例如工作、性别、角色、方言或倾向于讨论的话题例如技术、法律、宗教。当前的神经机器翻译Neural Machine TranslationNMT系统不包含关于演讲者的任何明确信息而这迫使模型隐式地学习这些特征。这是一种用于捕捉个人间差异的相对来说比较困难和间接的方式在某些情况下如果没有外部上下文这是不可能实现的见表1Mirkin等人于2015年提出。表1样本展示其中演讲者的信息会影响英语-法语的翻译在最近的一些研究中包含了关于作者的个人信息如个性Mirkin等人于2015年提出、性别Rabinovich等人于2017年提出或礼貌文雅性Sennrich等人于2016年提出但这些方法只能处理哪些特征具有明确标签的现象。我们的研究调查了我们该如何有效地对与说话者相关的变化进行建模以改进NMT模型的性能表现。特别地考虑到对于任何特定的演讲者来说都只提供少量的训练样本所以我们有意向对我们的NMT系统加以改进。我们提议将这个任务作为一个域自适应问题加以处理其中里面包含了大量的域而每个域中拥有非常少量的数据在这样的环境中我们可以期望域自适应的传统方法能够将所有模型参数调整为次优。我们所提出的解决方案涉及将演讲者的特定变化建模为softmax层中的附加偏差向量在其中我们可以直接学习这种偏差或者通过一个将每个用户视为几个原型偏向量混合的因式分解模型来进行学习偏差。图1我们针对softmax层的不同自适应模型的图形表示 从上到下依次为基本softmax、完全偏差softmax、事实偏差softmax为了更好地进行实验我们构建了一个新的带有演讲者注释的TED演讲数据集SATED用以对我们所提出的方法加以验证。自适应实验结果表明将演讲者信息明确地纳入到模型中可以提高翻译质量和演讲者特征的精确度。可以这样说用于MT的域自适应技术通常依赖于数据选择Moore和Lewis于2010年、Li等人于2010年、Chen等人于2017年、Wang等人于2017年提出、调优Luong和Manning于2015年、Miceli Barone等人于2017年提出或者将域名标签添加到NMT输入中Chu等人于2017年提出。除此之外还有一些方法可以对测试集中每个句子的模型参数进行微调Li等人于2016年提出以及对根据人类后期编辑进行自适应的方法Turchi等人于2017年提出。尽管这些方法遵循我们的基线自适应策略来调整所有参数。对于迁移学习也有部分更新方法尽管语言对之间的迁移任务非常不同Zoph等人于2016年提出。图2我们连续的n-gram模型的演讲者分类精确度。Mima等人于1997年进行的开创性研究引入了多种方法以便将各种关于演讲者角色、等级、性别和对话域的信息整合到基于规则的MT系统中。在数据驱动系统的上下文中以往的研究将特定的特征如礼貌文雅性或性别视为域自适应模型中的“域”并应用了自适应技术例如在温和的礼貌中加入“礼貌标签”Sennrich等人于2016年提出或者做数据选择以创建用于训练的性别特定语料库Rabinovich等人于2017年提出。可以说上述方法与我们的方法大有不同不同之处在于它们需要明确的信号性别、礼貌等等它们需要标记手动或自动并且还要处理有限数量的“域”≈2而我们的方法需要对演讲者进行注释并且必须将其扩展到更多的“域”中≈1,800。在本文中我们已经解释并激发了在NMT系统中对演讲者进行明确建模的挑战然后提出了两个模型以参数有效的方式来实现这一点。我们把这个问题作为一种极端的域自适应形式并且表明即使在自适应一小部分参数softmax偏差小于所有参数的0.1时也能够使得该模型通过翻译更好地反映个人语言的变化。我们通过进一步的实验结果表明特定于任何人的参数数量可以减少到10个而仍然能够保留比某些语言对的基线更好的分数从而使其在具有潜在数百万不同用户的实际应用中加以应用。相关代码资源该存储库包含《用于个性化神经机器翻译的极端自适应技术》论文中所涉及的相关代码。数据本文中所使用的数据是SATED数据集可点击链接查看。此外论文中所涉及的附加实验是在来自于论文《个性化机器翻译保留原作者特征》中性别注释的europarl语料库可点击链接查看。你可以通过运行下面的代码下载所有数据# SATEDwget http://www.cs.cmu.edu/~pmichel1/hosting/sated-release-0.9.0.tar.gztar xvzf sated-release-0.9.0.tar.gz# Europarlhttps://www.kaggle.com/ellarabi/europarl-annotated-for-speaker-gender-and-age/downloads/europarl-annotated-for-speaker-gender-and-age.zipunzip europarl-annotated-for-speaker-gender-and-age.zip要求该项目是用Dynet进行编码的。它应该用的是2.0.3版本你可以通过运行下面的代码安装该版本pip install dynet2.0.3原文链接https://arxiv.org/pdf/1805.01817.pdf未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”