当前位置：首页 > news >正文

深圳企业网站建设哪家好为企业做一件小事

news 2025/11/15 0:53:53

深圳企业网站建设哪家好,为企业做一件小事,设计logo图标,网站导航容易做翻译 | 于之涵编辑 | Leo出品 | AI科技大本营 #xff08;公众号ID#xff1a;rgznai100#xff09;然而近日#xff0c;Salesforce发布了一项新的研究成果#xff1a;decaNLP——一个可以同时处理机器翻译、问答、摘要、文本分类、情感分析等十项自然语言任务的通用模型。… 翻译 | 于之涵编辑 | Leo出品 | AI科技大本营公众号IDrgznai100 然而近日Salesforce发布了一项新的研究成果decaNLP——一个可以同时处理机器翻译、问答、摘要、文本分类、情感分析等十项自然语言任务的通用模型。 Salesforce的首席科学家RichardSocher表示我们的decaNLP就好比NLP领域的瑞士军刀引言深度学习已经显著地改善了自然语言处理任务中的最先进的性能如机器翻译、摘要、问答和文本分类。每一个任务都有一个特定的衡量标准它们的性能通常是由一组基准数据集测量的。这也促进了专门设计这些任务和衡量标准的体系的发展但是它可能不会促使那些能够在各种自然语言处理NLP任务中表现良好的通用自然语言处理模型的涌现。为了探索这种通用模型的可能性以及在优化它们时产生的权衡关系我们引入了自然语言十项全能decaNLP。这个挑战涵盖了十个任务问答、机器翻译、摘要、自然语言推理、情感分析、语义角色标注、关系抽取、任务驱动多轮对话、数据库查询生成器和代词消解。自然语言十项全能decaNLP的目标是开发出可以整合所有十个任务的模型并研究这种模型与那些为单一任务训练而准备的模型有何不同。出于这个原因十项全能的表现会被一个统一的指标所衡量该指标集合了所有十项任务的度量标准。图1.通过将 decaNLP的所有十个任务整合成问答形式我们可以训练一个通用的问答模型我们把所有十个任务都统一转化为问答的方式提出了一个新的多任务问答网络MQAN它是一个不需要特定任务的模块或参数而进行共同学习任务的网络。在机器翻译和实体识别命名中MQAN显示出了迁移学习Transfer learning方面的改进。在情感分析和自然语言推理中MQAN显示出了在领域适应方面的改进同时对于文本分类方面也显示出了其zero-shot的能力。在与基线的比较中我们证明了MQAN的多指针编解码器multi-pointer-generator decoder是成功的关键并且使用相反的训练策略anti-curriculum training strategy进一步改进了性能。尽管该设计用于decaNLP和通用的问答MQAN恰好也能在单任务设置中表现良好它在WikiSQL语义解析任务上与单项模型最佳成绩旗鼓相当任务驱动型对话任务中它排名第二在SQuAD数据集不直接使用跨监督方法的模型中它得分最高同时在其他任务中也表现良好。decaNLP的从获取和处理数据、训练和评估模型到复现实验的所有代码已经开源。任务图2.问题、上下文、答案问答、机器翻译、摘要、自然语言推理、情感分析、词性标注、关系抽取、目标导向对话、语义解析和代词解析任务的例子让我们首先开始讨论这些任务及其相关数据集。我们的论文包含更多的细节包括对每个任务的历史背景和最近的工作进行更深入的讨论。每个任务的输入-输出对示例如上图所示。问答。问答QA模型接收一个问题以及它所包含的必要的信息的上下文来输出理想的答案。我们使用斯坦福问答数据集的原始版本SQuAD来完成这项任务。该上下文是从英文维基百科中摘取的段落答案是从文章中复制的单词序列。机器翻译。机器翻译模型以源语言文本的形式为输入输出为翻译好的目标语言。我们使用2016年为国际口语翻译研讨会(IWSLT)准备的英译德数据为训练数据集使用2013年和2014年的测试集作为验证集和测试集。这些例子来自TED演讲涵盖了会话语言的各种主题。这是一个相对较小的机器翻译数据集但是它与其他任务的数据集大致相同。当然你还可以使用额外的训练资源比如机器翻译大赛WMT中的数据集。摘要。摘要模型接收一个文档并输出该文档的摘要。如今在摘要方面最重要的进展是将CNN/DailyMail 美国有线电视新闻网/每日邮报语料库转换成一个摘要数据集。我们在decaNLP中包含这个数据集的非匿名版本。平均来讲这些实例包含了该挑战赛中最长的文档以及从上下文直接提取答案与语境外生成答案之间平衡的force Model。自然语言推理。自然语言推理(NLI)模型接受两个输入句子:一个前提和一个假设。模型必须将前提和假设之间的推理关系归类为支持、中立或矛盾。我们使用的是多体裁自然语言推理语料库MNLI它提供来自多个领域的训练示例(转录语音、通俗小说、政府报告)和来自各个领域的测试对。情感分析。情感分析模型被训练用来对输入文本表达的情感进行分类。斯坦福情感树库SST由一些带有相应的情绪积极的中立的消极的的影评所组成。我们使用未解析的二进制版本以便明确对decaNLP模型的解析依赖。语义角色标注。语义角色标注SRL模型给出一个句子和谓语(通常是一个动词)并且必须确定“谁对谁做了什么”、“什么时候”、“在哪里”。我们使用一个SRL数据集该数据集将任务视为一种问答QA-SRL。这个数据集涵盖了新闻和维基百科的领域但是为了确保decaNLP的所有数据都可以自由下载我们只使用了后者。关系抽取。关系抽取系统包含文本文档和要从该文本中提取的关系类型。在这种情况下模型需要先识别实体间的语义关系再判断是不是属于目标种类。与SRL一样我们使用一个数据集该数据集将关系映射到一组问题以便关系抽取可以被视为一种问答形式QA-ZRE。对数据集的评估是为了在新的关系上测量零样本性能——数据集是分开的使得测试时看到的关系在训练时是无法看到的。这种零样本的关系抽取以问答为框架可以推广到新的关系之中。任务驱动多轮对话。对话状态跟踪是任务驱动多轮对话系统的关键组成部分。根据用户的话语和系统动作对话状态跟踪器会跟踪用户为对话系统设定了哪些事先设定目标以及用户在系统和用户交互过程中发出了哪些请求。我们使用的是英文版的WOZ餐厅预订服务它提供了事先设定的关于食物、日期、时间、地址和其他信息的本体可以帮助代理商为客户进行预订。语义解析。SQL查询生成与语义解析相关。基于WikiSQL数据集的模型将自然语言问题转换为结构化SQL查询以便用户可以使用自然语言与数据库交互。代词消解。我们的最后一个任务是基于要求代词解析的Winograd模式“Joan一定要感谢Susan的帮助给予/收到。谁给予或者收到了帮助?Joan还是Susan?”。我们从Winograd模式挑战中的示例开始并对它们进行了修改导致了修订的Winograd模式挑战即MWSC以确保答案是上下文中的单个单词并且分数不会因上下文、问题和答案之间的措辞或不一致而增加或者减少。十项全能得分decaScore 在decaNLP上竞争的模型是被特定任务中度量标准的附加组合来评估的。所有的度量值都在0到100之间因此十项全能得分在10个任务中的度量值在0到1000之间。使用附加组合可以避免我们在权衡不同指标时可能产生的随意性。所有指标都不区分大小写。我们将标准化的F1nF1用于问答、自然语言推理、情感分析、词性标注和MWSC平均值ROUGE-1、ROUGE-2、ROUGE-L作为摘要的评分等级语料BLEU水平得分用于对机器翻译进行评分联合目标跟踪精确匹配分数和基于回合的请求精确匹配得分的平均值用于对目标导向进行评分逻辑形式精确匹配得分用于WikiSQL上的语义解析以及语料库级F1评分等级用于QA-ZRE的关系提取。为了代替标准的验证数据我们选择了按要求的decaNLP模型提交到原始的小组平台进行测试。类似地MNLI测试集不是公开的decaNLP模型必须通过一个Kaggle系统来评估MNLI的测试性能。多任务问答网络MQAN图3.多任务问答网络为了有效地在所有decaNLP中进行多任务处理我们引入了MQAN一个多任务问题回答网络它没有任何针对特定任务的参数和模块。简单地说MQAN采用一个问题和一个上下文背景文档用BiLSTM编码使用额外的共同关注对两个序列的条件进行表示用另两个BiLSTM压缩所有这些信息使其能够更高层进行计算用自我关注的方式来收集这种长距离依赖关系然后使用两个BiLSTM对问题和背景环境的进行最终的表示。多指针生成器解码器着重于问题、上下文以及先前输出象征来决定是否从问题中复制还是从上下文复制或者从有限的词汇表中生成。关于我们的模型的其他细节可以在我们的文章的第3节中找到。基线和结果除了MQAN我们还尝试了几种基线方法并计算了它们的十项全能得分。第一个基线S2S是具有注意力和指针生成器的序列到序列的网络。我们的第二基线S2S w/SAtt是一个S2S网络它在编码器侧的BiLTM层和解码器侧的LSTM层之间添加了自注意Transformer层。我们的第三个基线CAtt将上下文和问题分成两个序列并在编码器侧添加一个额外的共同关注层。MQAN是一个种带有附加问题指针的CAtt模型在我们的基线/消融研究中它被称为QPtr。针对每一个模型我们都提出了两种实验。第一我们报告出十个任务模型中的单任务性能。第二我们提出多任务性能即模型在所有任务中被联合训练所体现出的性能。图4.单任务和多任务实验对不同模型和训练策略的验证结果比较这些实验的结果突出了在序列到序列和通用NLP问答方法之间的多任务和单任务之间的权衡关系。从S2S到S2S w/ SAtt提供了一种模型该模型在混合上下文和输入的系列问题中添加了附加关注层。这大大提高了 SQuAD和WiKISQL的性能同时也提高了QA-SRL的性能。仅此一点就足以实现WiKISQL的最新技术性能。这也表明如果不隐性地学习如何分离它们的表示方法而显性地去分离上下文和问题会使模型建立更丰富的表示方法。下一个基线使用上下文和问题作为单独的输入序列相当于使用一个共同关注机制CAT来增强S2S模型该机制分别构建了两个序列表示。使得每个SQuAD和QA-SRL的性能增加了 5 nF1。但遗憾的是这种分离不能改善其他任务并且极大地损害了MNLI和MWSC的性能。对于这两个任务可以直接从问题中复制答案而不是像大多数其他任务那样从上下文中复制答案。由于两个S2S基线都将问题连接到上下文所以指针生成器机制能够直接从问题中复制。当上下文和问题被分成两个不同的输入时模型就失去了这种能力。为了补救这个问题我们在前面的基线中添加了一个问题指针QPTR一种在之前添加给MQAN的指针。这提高了MNLI和MWSC的性能甚至能够比S2S基线达到更高的分数。它也改善了在SQuADIWSLT和 CNN/DM上的性能该模型在WiKISQL上实现了最新的成果是面向目标的对话数据集的第二高执行模型并且是非显式地将问题建模为跨度提取的最高性能模型。因为当使用直接跨度监督时我们会看到应用在通用问答中的一些局限性。在多任务设置中我们看到了类似的结果但我们还注意到一些额外的显著特性。在QA-ZRE中零样本关系提取性能比最高的单任务模型提高11个点这支持了多任务学习即使在零样本情况下也能得到更好的泛化的假设。在需要大量使用S2S基线的指针生成器解码器的生成器部分的任务上性能下降了50%以上直到问题指针再次添加到模型中。我们认为这在多任务设置中尤为重要。原因有二首先问题指针除了在一个共同参与的上下文语境环境之外还有一个共同参与的问题。这种分离允许有关问题的关键信息直接流入解码器而不是通过共同参与的上下文。其次通过更直接地访问这个问题模型能够更有效地决定何时生成输出令牌比直接复制更合适。使用这种反课程训练策略最初只针对问答进行训练在decaNLP上的性能也进一步有所提高。零样本和迁移学习能力图5.在适应新域和学习新任务时MQAN对decaNLP的预训练优于随机初始化。左一个新的语言对的训练-英文到捷克语右训练一个新的任务-实体识别命名NER考虑到我们的模型是在丰富和多样的数据上进行训练的它构建了强大的中间表示方法从而实现了迁移学习。相对于一个随机初始化的模型我们的模型在decaNLP上进行了预先训练使得在几个新任务上更快的收敛并且也提高了分数。我们在上图中给出了两个这样的任务命名实体识别和英文到捷克语的翻译。我们的模型也具有领域适应的零样本能力。我们的模型在decaNLP上接受过训练在没有看过训练数据的情况下我们将SNLI数据集调整到62%的精确匹配分数。因为decaNLP包含SST它也可以在其他二进制情感分析任务中执行得很好。在亚马逊和Yelp的评论中MQAN在decaNLP上进行了预先培训分别获得了82.1%和80.8%的精确匹配分数。此外用高兴/愤怒或支持/不支持来替换训练标签的符号来重新表示问题只会导致性能的轻微下降因为模型主要依赖于SST的问题指针。这表明这些多任务模型对于问题和任务中的微小变化更加可靠并且可以推广到新的和不可见的类。附加细节和引文为了方便起见我们为感兴趣的读者提供了我们的论文及其附录为主要任务、历史背景、模型、训练策略、课程学习启发、模型激活分析和相关工作提供更多细节。该论文链接如下https://einstein.ai/static/images/pages/research/decaNLP/decaNLP.pdf原文链接https://einstein.ai/research/the-natural-language-decathlon开源代码https://github.com/salesforce/decaNLP未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.zqtcl.cn/news/386160/