怎样成立网站,秦皇岛市城乡建设局网站,大学跳蚤市场网站建设,个人网站建设目的MEMORIZING TRANSFORMERS 返回论文和资料目录
论文地址
1.导读
谷歌去年做的一个工作。内容很简单#xff0c;在Transformer模块中加入了一层记忆层#xff0c;结果表明这个方法可以帮助模型提高在NLP任务上的表现#xff1a;generic webtext (C4), math papers (arXiv),… MEMORIZING TRANSFORMERS
返回论文和资料目录
论文地址
1.导读
谷歌去年做的一个工作。内容很简单在Transformer模块中加入了一层记忆层结果表明这个方法可以帮助模型提高在NLP任务上的表现generic webtext (C4), math papers (arXiv), books (PG-19),code (Github)。
2.摘要和引言
Transformer缺乏长期记忆的能力。以往的方式是通过训练利用模型的参数来存储长期记忆但这种方式需要大量的训练。 因此作者提出将上一次模型中的一部分键和值这里要看懂需要了解Transformer结构中的QKV进行存储再后面使用时再利用一个被广泛应用的信息检索的方式–近似K近邻查找KNN来检索这个信息。最后利用这个检索得到的信息和现有的信息得到结果。
相比以往的作者认为有两个不同。
KNN直接找原本文而不是对原文本进行归纳总结。反向传播的梯度不会更新外部内存。
3.方法
直接用下图理解。 与之前的Transformer不同的地方是1.左边加入了一个外部内存用于存放长期技艺2.KNN检索 3.KNN attention层
作者提出首先将前M个input输入到KNNlocal attentionFFN时的在FFN的建K和值V存放在外部内存左边橙色。 下一次输入时会利用KNN检索当前的Q与之前的。。。对不起我看不懂作者想说啥。
未完待续