网站建设后的团队总结,金融交易网站建设,世界500强中国排名一览表,课程网站建设目标任务本文是LLM系列文章#xff0c;针对《An Efficient Memory-Augmented Transformer for Knowledge 一种用于知识密集型NLP任务的高效内存增强转换器 摘要1 引言2 相关工作3 高效内存增强Transformer4 EMAT的训练流程5 实验6 分析7 结论局限性 摘要
获取外部知识对于许多自然语言…本文是LLM系列文章针对《An Efficient Memory-Augmented Transformer for Knowledge 一种用于知识密集型NLP任务的高效内存增强转换器 摘要1 引言2 相关工作3 高效内存增强Transformer4 EMAT的训练流程5 实验6 分析7 结论局限性 摘要
获取外部知识对于许多自然语言处理任务至关重要例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势我们提出了高效内存增强TransformerEMAT——它将外部知识编码为键值内存并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务允许EMAT对信息性键值表示进行编码并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务如问答和对话数据集上的实验表明使用我们的方法简单地扩充参数模型T5基础会产生更准确的结果例如25.8→ NQ上的44.3 EM同时保持高吞吐量例如NQ上1000个查询/s。与检索的改进模型相比EMAT在WoW和ELI5上运行得更快结果更准确。
1 引言
2 相关工作
3 高效内存增强Transformer
4 EMAT的训练流程
5 实验
6 分析
7 结论
在这项工作中我们提出了一种有效的内存改进TransformerEMAT它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验包括开放域问答、对话和长形式问答表明了EMAT的准确性和快速性。在未来我们将寻求改进将更多样化的知识整合到记忆中并将我们的方法推广到更多的下游任务中。
局限性
一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着当应用于不同的下游任务时我们定义了不同的弱监管标签。可以使用端到端的训练技术如Paranjape等人提出的技术用解码器的梯度训练记忆检索模块我们将其作为未来的工作。另一个潜在的限制是我们需要存储密集的键值存储器M这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易而且大多数深度学习工作站都能达到这一要求我们认为这并不是太大的限制。此外在内存资源不足的情况下我们可以使用LRU缓存来节省RAM。