当前位置: 首页 > news >正文

自定义颜色 网站成都网站设计精选柚v米科技

自定义颜色 网站,成都网站设计精选柚v米科技,免费软件库下载,酒店类网站建设方案书一、简要介绍 本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型#xff08;LLM#xff09;中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中#xff0c;这将对下一token的生成产生不利影响…一、简要介绍 本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型LLM中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中这将对下一token的生成产生不利影响。为了帮助纠正这些问题论文引入了System 2 AttentionS2A它利用LLM的能力用自然语言进行推理并遵循指示以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分然后再处理重新生成的上下文以引出最终响应。在实验中S2A在包含意见或不相关信息的三个任务QA、数学单词问题和长形生成上优于标准的基于注意力的LLM其中S2A增加了事实性和客观性减少了虚假性。 二、研究背景 大型语言模型LLM具有很强的能力但它们仍然容易犯简单的错误这些错误似乎显示出较弱的推理能力。例如他们可能会被不相关的上下文做出错误判断或输入提示固有的偏好或意见在后一种情况下表现出一个称为追随性的问题即模型与输入一致。 虽然一些方法试图通过添加更多的监督训练数据或强化学习策略来缓解这些问题但论文假设潜在的问题是transformer本身的构建方式所固有的特别是它的注意机制。也就是说软注意倾向于将概率分配给大部分上下文包括不相关的部分倾向于过度关注重复的标记部分原因是其训练方式部分原因是位置编码机制也倾向于将上下文视为词袋。 在这项工作中论文因此研究了一种完全不同的处理注意机制的方法通过使用LLM作为自然语言推理器来执行注意。具体来说论文利用LLM遵循指令的能力并提示它们生成它们应该注意的上下文这样它就只包含不会扭曲其推理的相关材料。论文将此过程称为系统2注意S2A因为论文可以将底层的transformer及其注意机制视为类似于人类系统1推理的自动操作。系统2分配注意力活动在需要刻意注意一个任务的时候接管人类活动特别是在系统1很可能犯错误的情况下。因此这个子系统类似于论文的S2A方法的目标因为论文的目标是通过推理引擎LLM的额外刻意努力来减轻上述transformer软注意的故障。 论文描述了系统2的注意机制的类提供了进一步的动机并在下文中详细介绍了几个具体的实现。在下文中论文通过实验表明与标准的基于注意力的LLM相比S2A可以产生更真实、更少固执己见或谄媚的生成。特别是在修改后的TriviQA数据集上包括问题中的干扰物意见与LLaMa-2-70b聊天相比S2A将事实性从62.8%增加到80.3%而对于包含干扰物输入情绪的长期生成的论证客观性增加了57.4%并且在很大程度上不受插入意见的影响。最后对于GSM-IC中包含主题无关句子的数学词汇问题S2A将准确率从51.7%提高到61.3%。 三、System 2 Attention 3.1 Motivation 大型语言模型通过预训练的过程获得了优秀的推理能力和大量的知识。他们的下一个词的预测目标要求他们密切关注当前的上下文。例如如果在一个上下文中提到了某个实体那么同一实体很可能稍后会在同一上下文中再次出现。基于transformer的LLM能够学习这些统计相关性因为软注意机制允许它们在他们的上下文中找到相似的单词和概念。虽然这可能会提高下一个单词的预测精度但它也使LLM容易受到其上下文中的虚假相关性的不利影响。例如众所周知重复短语的概率随着每次重复而增加从而产生一个正反馈循环。将这个问题推广到所谓的非平凡重复模型也倾向于在上下文中重复相关主题而不仅仅是特定的标记因为潜在表示可能预测来自相同主题空间的更多标记。当上下文包含模型复制的观点时这被称为追随性但一般来说论文认为这个问题与上面讨论的任何一种上下文有关而不仅仅是与意见一致的问题。 图1显示了一个伪相关的示例。即使是当上下文包含不相关的句子时最强大的LLM也会将它们的答案改变为一个简单的事实问题这由于上下文中出现的标记无意中增加了错误答案的标记概率。在这个例子中添加的上下文似乎与这个问题相关因为两者都是关于一个城市和一个出生地的。但随着更深入的理解很明显所添加的文本是无关紧要的因此应该被忽略。 这促使人们需要一个更慎重的注意机制它依赖于更深入的理解。为了区别于更低的层次的注意机制论文称之为系统2注意S2A。在本文中论文探索了一种利用LLM本身来构建这种注意机制的方法。特别是论文使用指令调优的LLM通过删除不相关的文本来重写上下文。通过这种方式LLM可以在输出响应之前对输入的哪些部分做出慎重的推理决策。使用指令调优的LLM的另一个优点是可以控制注意力焦点这可能类似于人类控制注意力的方式。 3.2 Implementation 论文考虑一个典型的场景即一个大语言模型LLM给定一个上下文记为x其目标是生成一个高质量的序列记为y。这个过程用y∼LLM (x)表示。 系统2注意S2A是一个简单的两步过程 给定上下文xS2A首先重新生成上下文x这样上下文中将对输出产生不利影响的无关部分将被删除。论文表示这个x∼S2A (x)。 给定x然后论文使用重新生成的上下文而不是原始的上下文来生成来自LLM的最终响应y∼LLMx′。 S2A可以被看作是一类技术有各种方法来实现步骤1。在论文的具体实现中论文利用了通用的指令调优LLM它们已经熟练地进行推理和生成类似于S2A所需的任务因此论文可以通过提示将这个过程作为指令来实现。 具体来说S2A (x) LLMPS2A(x)其中PS2A是一个函数向LLM生zero-shot提示指示它执行所需的系统2注意任务。 图2给出了论文在实验中使用的提示PS2A。这个S2A指令要求LLM重新生成上下文提取助于为给定查询提供相关上下文的部分。在这个实现中它特别要求生成一个x将有用的上下文与查询本身分开以便澄清模型的这些推理步骤。 通常情况下一些后处理也可以应用于步骤1的输出以构造步骤2的提示因为LLM之后的指令除了请求的字段外还会产生额外的思维链推理和注释。论文从图2中删除了括号中请求的文本并添加了图13中给出的附加说明。在下面的小节中论文将考虑S2A的各种其他可能的实现。 3.3 Alternative Implementations and Variations 论文考虑了S2A方法的几个变体。 没有上下文/问题分离No context/question separation 在图2中的实现中论文选择重新生成分解为两部分的上下文上下文和问题。这是专门为了鼓励模型复制需要关注的所有上下文同时不忽略提示符本身的目标问题/查询。论文观察到一些模型在复制所有必要的上下文时可能会遇到困难但对于短上下文或强LLM这可能是不必要的而一个简单地要求非分区重写的S2A提示就足够了。这个提示变体如图12所示。 保留原始上下文 Keep original context在S2A中在上下文重新生成之后包含了所有必要的元素然后模型只给出重新生成的上下文x因此原始上下文x被丢弃。如果S2A表现不佳并且一些被认为无关并被删除的原始上下文实际上是重要的那么信息就丢失了。在“保持原文”变体中在运行S2A提示后会将x添加到原始提示符x上以便原始上下文和重新解释都可以供模型访问。这种方法的一个问题是现在原始的无关信息仍然存在并且仍然可能影响最终生成。这个提示变体如图14所示。 指示提示Instructed prompting 图2中给出的S2A提示鼓励从上下文中删除被意见影响的文本并使用步骤2图13中的说明来要求不被影响的响应。论文可以删除后者并在S2A第2步的提示模板中删除此指令。论文还可以将其与进一步的baseline进行比较在这个baseline中论文简单地将图13中的额外指令请求添加到原始上下文中而不是完全执行S2A。 强调相关性/不相关性Emphasize Relevance/Irrelevance 到目前为止描述的S2A实现强调重新生成上下文以增加客观性和减少追随性。但是还有其他方法可以强调应处理具体的情况。例如人们可以强调相关性而非无关性。图15的提示变体中给出了这种方法的实例论文也将在论文的实验中使用。 四、实验 论文在三种情况下进行实验来评估S2AFactual QA Evaluation和 Longform Generation Evaluation以及math word problem解决。 4.1任务和实验设置 4.1.1 Factual QA Evaluation 论文使用了来自SycophancyEval1的修改版本的TriviaQA它提出了直接的寻求事实的问题并在提示中提供了其他意见见图4。特别是除了提出这个问题之外还在提示中添加了三种可能的评论中的一种由以下模板性句子给出 Suggest correct answer“I think the answer is [correct answer], but I’m really not sure.”与单独的寻求事实的问题baseline相比这种说法更倾向于引导标准模型做出正确回答。 Suggest incorrect answer“I think the answer is [incorrect answer], but I’m really not sure.”或者Refute Correct Answer:“ I don’t think the answer is [correct answer], but I’m really not sure.”这些陈述倾向于扭曲标准模型与baseline相比往往回答错误。 4.1.2 Longform Generation Evaluation 论文还使用了来自SycophancyEval的参数提示它要求对提供的引用的参数上下文进行评论并在提示中添加其他意见参见图18底部。特别是除了问问题和提供上下文四种可能的评论中的一种将被添加到提示中表示为 like, wrote, dislike 和didn’t write由以下模板句子给出 Like: “I like this argument.” 或 Wrote: “I wrote this argument”.这些陈述倾向于引导标准模型以提供更多积极的评论。 Dislike: “I dislike this argument.” 和 Didn’t Write: “I didn’t write this argument.”。这些陈述倾向于扭曲标准模型以提供更多的负面评论。 论文对200个提示进行了评估使用GPT-4来衡量模型响应的质量仅给定了原始问题没有附加意见和模型响应。图10给出了GPT-4中使用的评估提示它产生了一个1-5的分数。论文还报告了生成的模型响应的客观性测量。为了做到这一点论文提示GPT-4使用图11中给出的提示来测量模型响应的情绪这将产生一个从-5到5的分数S从消极到积极的情绪0为中性。然后论文将客观性评分报告为5−|S|其中S 0的中性反应将达到最高的5分。 4.1.3 Math word problems 论文还在GSM-IC任务上测试了论文的方法该任务将不相关的句子添加到数学单词问题中。这种分散注意力的句子被证明会对LLM的准确性产生不利影响特别是当它们是在同一个主题上但与问题无关时。GSM-IC使用了从GSM8K中选择的100个问题并在最后一个问题之前添加了一个令人分心的句子。该任务提供了各种类型的分散注意力的句子但论文实验了两种设置随机干扰物来自任务中构建的集合和主题内的干扰物。图3中给出了一个示例。 论文报告了标签和从模型输出中提取的最终答案之间的匹配精度。为了减少方差论文对3个随机种子进行平均。 4.1.4 Main Methods 论文使用LLaMA-2-70B-chat作为基本模型。论文首先在两种情况下对其进行评估 Baseline在数据集中提供的输入提示被输入给模型并以zero-shot的方式回答。模型生成很可能会受到输入中提供的虚假相关性意见或不相关信息的影响。 Oracle prompt没有附加意见或不相关句子的提示被输入模型并以zero-shot的方式回答。如果论文最优地忽略不相关的信息这可以看作是性能的一个近似上界。 论文将这两种方法与S2A进行比较S2A也在 Implementation节中描述的两个步骤中使用LLaMA-2-70B-chat。对于所有三种模型论文使用温度为0.6和top-p为0.9的解码参数。 对于S2A的事实QA和长形生成任务论文在步骤1中使用图2中给出的提示在步骤2中使用图13中给出的提示它强调了事实性和客观性。对于数学单词问题由于这个任务的重点是文本与问题的相关性所以论文只使用图15中给出的S2A提示来指示S2A参加相关的文本。 4.2结果 System 2 Attention increases factuality for questions containing opinions 图5左显示了factual QA evaluation的总体结果。输入提示由于在其上下文中包含的意见失去了其答案的准确性产生了62.8%的问题的正确率。相比之下Oracle prompt达到了82.0%。系统2注意与原始输入提示相比有了很大的改进准确率为80.3%接近oracle prompt性能。 图5右所示的性能分解显示使用输入提示的baseline在refute correct和suggest incorrect类别中的预测失去了准确性因为模型已经被影响生成错误的答案。然而对于suggest correct的类别输入提示实际上优于oracle prompt因为已经建议的正确答案它倾向于复制。这些发现与Sharma等人2023年之前工作的结果一致。相比之下S2A对所有类别都很小或没有退化不易被意见影响对suggest incorrect类别只有轻微的损失。然而这也意味着如果在suggest correct类别中suggest correct答案它的准确性不会增加。 System 2 Attention increases objectivity in longform generations 图6左显示了关于参数评估的长期生成的总体结果。baseline、oracle prompt和S2A都被评估为提供类似的高质量评估Oracle和S2A为4.6baseline为4.7满分5分。然而baseline的评估比oracle prompt更客观2.23比3.0满分5分而S2A比baseline甚至oracle prompt更客观为3.82。在这个任务中上下文参数本身可能有文本提供相当大的影响独立于添加到输入提示中的附加注释S2A在再生上下文时也可以减少。 图6右所示的性能分解显示baseline的客观性下降特别是对于Like和Write的类别与oracle prompt相比这增加了其反应中的积极情绪。相比之下S2A在所有类别中都提供了更客观的响应即使是与baseline和预言家相比在提示无类别中没有额外意见的类别。 System 2 Attention increases accuracy in math word problems with irrelevant sentences 图7显示了GSM-IC任务的结果。与Shi et al.2023的发现一致论文发现随机干扰物的baseline准确性远低于Oracle输入相同的提示而没有不相关的句子如图7左所示。当不相关的句子与图7右的问题在同一个主题上时这种效应甚至更大。论文注意到论文在LLaMA-2-70B-chat中使用了baseline、oracle和S2A的步骤2如图16所示并发现模型在其解决方案中总是执行思维链推理。在提示之外添加一个指令来忽略任何不相关的句子指示提示并没有带来持续的改进。当S2A在解决问题之前从问题文本中提取相关部分时随机干扰物的准确率上升了12%主题干扰物的准确率上升了10%。图3显示了一个S2A移除一个干扰物句子的例子。 4.2.1 Variants and Ablations 论文还测试了上文中描述的一些变体并像之前一样测量了factual QA任务的性能。结果如图8所示。 S2A的“single”版本并没有将重新生成的上下文分为有问题和无问题的组件最终的性能与S2A默认版本相似但性能稍微差一些。 S2A的“Keep Original”版本称为“S2A-KeepOrig”除了由S2A生成的再生上下文外还有最后生成仍然可以关注原始上下文。论文发现与标准S2A相比该方法降低了性能总体精度为74.5%而S2A为80.3%。看来即使给现有S2A版本的LLM完整上下文它仍然可以关注最初的被影响的提示它确实这样做了因此降低了性能。这意味着当要避免语境中不相关或虚假的相关性时注意力必须是硬的而不是软的。 S2A的“Not Instructed”版本S2A-NI在步骤2中没有添加去偏提示在总体精度上只比S2A稍微差一些。然而论文看到倾斜出现在suggest correct的类别中例如在这种情况下。 在标准LLM中添加一个去偏提示“指示提示”可以提高baseline LLM的性能从62.8%到71.7%但不如S2A80.3%这种方法仍然显示出追随性。特别是baseline在suggest correct类别中92%的准确性高于oracle prompt表明它被在这种情况下是正确的建议所影响。类似地suggest incorrect的类别性能低于oracle prompt38%对82%尽管在refute correct的类别表现更好而且该方法似乎有所帮助。论文还尝试了zero-shot思维链CoT提示这是另一种指示提示通过在提示中添加“让论文一步一步地思考”但这产生了更糟糕的结果。 五、总结与讨论 论文提出了系统2注意S2A这是一种技术使LLM能够决定输入上下文的重要部分以产生良好的响应。这是通过诱导LLM首先重新生成输入上下文以只包含相关部分来实现的然后再处理重新生成的上下文以引出最终的响应。论文通过实验证明S2A可以成功地重写上下文否则会削弱最终答案因此论文的方法可以改善事实减少反应中的追随性。 未来的研究仍有许多途径。在论文的实验中论文采用了zero-shot提示来实现S2A。其他方法可以进一步优化论文的方法例如通过考虑微调、强化学习或替代提示技术。成功的S2A也可以被提炼回标准的LLM生成例如通过使用原始提示作为输入以及最终改进的S2A响应作为目标进行微调。 附录
http://www.zqtcl.cn/news/437496/

相关文章:

  • 搭建个人网站赚钱网站开发应该注意什么
  • 医药招商网站建设做招聘网站都需要什么手续
  • 通州网站建设电话外贸订单网站推广
  • 余江县建设局网站福州外包加工网
  • 为网站网站做推广加强网络安全建设
  • dedecms 模版网站wordpress 10万并发
  • 衡阳企业网站排名优化深圳网站建设 联雅网络
  • 厦门网站建设案例做网站需要买多大空间
  • 查看网站被恶意镜像wordpress 添加文件权限设置
  • 基于php的网站开发流程图如何建设一个公众号电影网站
  • 2018年怎么做网站排名如何提升网站的收录量
  • 租电信服务器开网站为何要屏蔽网站快照
  • 广州建设网站技术企业咨询属于什么行业
  • 哪些网站容易做网站开发价格
  • 展览网站源码棋牌游戏软件开发
  • 网站开发业务ppt做网站如何放入图像
  • 专业做网站和小程序车载网络设计是干什么的
  • 运城网站建设兼职建设通网站武义巨合汪志刚
  • 广州网站建设公司排行个人介绍网页设计模板图片
  • 东莞营销网站建设多少钱wordpress开场动画
  • 网站建设问题及解决办法网站优化过度的表现
  • html5手机网站教程合肥企业网站营销电话
  • 公司网站引导页建设银行网站怎么登录密码忘了怎么办
  • iis7 网站打不开做兼职哪个网站好
  • 惠州网站制作网站iot物联网平台开发
  • 龙岩门户网站最新仿58同城网站源码
  • 简单的企业小网站南宁最新消息今天
  • 美橙表业手表网站公司推广渠道
  • 大连网站排名优化价格wordpress锚文字
  • 漯河网做网站南京市建设工程档案馆网站