当前位置: 首页 > news >正文

福田做棋牌网站建设找哪家公司好主动营销的方式有哪些

福田做棋牌网站建设找哪家公司好,主动营销的方式有哪些,上海 网络推广,南化建设公司官网深度学习自然语言处理 原创作者#xff1a;yy 很多年前#xff0c;你一定在互联网上看过这张图#xff0c;展示了人脑能够阅读和理解打乱顺序的单词和句子#xff01;而最近东京大学的研究发现#xff0c;大语言模型#xff08;LLMs#xff09; 尤其是 GPT-4#xff0c… 深度学习自然语言处理 原创作者yy 很多年前你一定在互联网上看过这张图展示了人脑能够阅读和理解打乱顺序的单词和句子而最近东京大学的研究发现大语言模型LLMs 尤其是 GPT-4也可以读懂打乱顺序的单词甚至是在人脑都难以分辨的情况下 接下来就让我们来具体介绍一下这个违反直觉的发现吧 论文Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text 地址https://arxiv.org/pdf/2311.18805.pdf 代码https://github.com/ccqq77/unnatural-error-correction. 前言 “Typoglycemia” 这个词曾在互联网上风靡一时它是由“打字错误Typo”和“低血糖Hypoglycemia” 这两个单词拼凑而成。通俗地讲”Typoglycemia“ 指一个有趣的现象只要每个单词的首尾字母正确即使中间的字母顺序是完全打乱的也不影响人类的正常阅读与理解。 而这篇研究发现大多数强大的 LLMs 都具备类似于 “typoglycemia” 的超能力。更令人惊讶的是作者发现即使每个单词中的所有字母都是乱序 仍有且并仅有 GPT-4 能近乎完美地从乱序中恢复原始句子将编辑距离减少 95%尽管乱码文本对输入 tokenization 造成了严重破坏但 LLMs 仍能表现出如此强大的恢复能力 任务设计 为了评估 LLMs 处理乱序文本的能力作者提出了 Scrambled Bench 包含两个任务如图所示。 1. 乱序句子恢复ScrRec 提供包含乱序词的句子要求LLMs恢复出原始句子。这项任务可以直接评估 LLMs 识别和重建句子中乱序词的能力。 2. 乱序问题解答ScrQA 如果模型在 ScrRec 任务中表现不佳可能有两个原因 (1) 模型难以遵循指令 (2) 模型无法恢复句子。 为了区分这两种情况作者设计了 ScrQA 任务来评估模型在乱序语境下完成标准任务即 QA 的能力。具体而言作者将包含了回答问题所需基本信息的文本打乱并根据模型表现的差异对其进行评估。 数据集构建 RealtimeQA2022年 RealtimeQA 是一个动态的问题解答数据集每周都会公布有关近期新闻的问题。为了缓解数据污染作者从 RealtimeQA 中收集最近的数据2023/03/17-2023/08/04并对证据句进行加扰处理以构建 ScrRec 和 ScrQA 任务的样本。 DREAM2019年 DREAM 是一个基于对话的多选阅读理解数据集。作者对每个问题的对话部分进行了加扰处理。 AQuARAT2017年 AQuA-RAT 是一个数学单词问题数据集需要多步推理才能解决。作者采用了 few-shot Chain of ThoughtCoT并对主问题和示例问题都加入扰动。 对于每个数据集作者使用不同的扰动类型和比例生成扰动文本。 1. 随机扰动RS 对于每个句子随机选择一定比例20%、50%、100%的单词并随机扰乱每个选定单词中的所有字母阿拉伯数字保持不变。 2. 保留第一个字母KF 保持每个单词的第一个字母不变并随机扰乱其他位置的字母。 3. 保留首尾字母KFL 保持每个单词的第一个和最后一个字母不变并随机扰乱其他位置的字母。 评价指标 Recovery Rate (RR) 对于 ScrRec 任务原始句子与恢复句子之间的平均编辑距离ED是一种自然的性能度量指标。 此外作者还定义了 Recovery RateRR来衡量 ED 在恢复的句子中所占的比例从而可以更简明地比较不同设置下模型的性能 Relative Performance Gain (RPG) 对于 ScrQA 而言accuracy 是衡量性能的一个自然指标。但是由于不同模型在处理原始问题时的能力存在差异很难比较不同模型的性能。 因此作者引入了 Relative Performance GainRPG将评估重点放在与原始文本相比模型理解扰动文本的能力上 实验设置 作者评估了最强大的闭源 LLM包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等开源模型。对于各数据集和任务采取了以下设置 RealtimeQA ScrReczero-shot few-shotScrQAzero-shotDREAM ScrQA zero-shotAQuA ScrQA few-shot COT 结果分析 由于篇幅等原因仅展示性能最好的五种 LLM即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b的结果。 结果 1扰动类型 实验结果表明在 KFL 设置下各模型之间的性能差距不大。然而除 GPT-4 外随着扰动类型难度的增加KFL ➡ KF ➡ RS模型性能明显下降。相比之下GPT-4 的性能始终保持在较高水平而与扰动类型无关。在 ScrRec 任务上GPT-4 的 RR 在所有设置下都保持在 95% 以上。在 ScrQA 任务上GPT-4 的表现一直优于其他模型即使扰动的难度增加也能保持较高的准确率。 结果 2扰动比例 随着扰动比例的增加text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 会降低。GPT-3.5-turbo 和 GPT-4 的 RR 变化不大。GPT-4 的表现远远优于其他模型大多数设置下的 RR 都高于 95%20% 扰动率除外。 所有模型的 RPG 都随着扰动比例的增加而下降。但 GPT-4 即使在 100%加扰证据的情况下仍能保持 87.8% 的原有性能。随着扰动比例的增加不同模型之间的性能差距也越来越大。 结果 3其他数据集 在加扰的 DREAM 数据集上除了评估整体性能作者还评估了不同类别问题的性能。结果显示GPT-4 与其他模型间的差异比在 RealtimeQA 上更加突出这可能由于 DREAM 需要对较长文本进行深层次理解。与其他类别相比模型在算术问题上的表现往往更容易受到乱序文本的影响即使是 GPT-4 也是如此。 下表展示了在加扰的 AQuA-RAT 数据集上进行 4-shot CoT 设置的实验结果。结果表明加扰示例的影响相对较小。但当主问题的加扰率达到 100%时GPT-3.5-turbo 和 text-davinci-003 的性能明显下降而 GPT-4 基本保持了最初的性能。 结论 本研究提出了 Scrambled Bench 来衡量 LLMs 处理乱序文本的能力包括两个任务乱序句子恢复 ScrRec 和乱序问题解答 ScrQA并基于 RealtimeQA、DREAM 和 AQuA-RAT 构建了乱序数据集。尽管乱序文本显著改变了 tokenization大多数强大的 LLMs 仍能在不同程度上处理乱序文本不过它们在面对极端乱序的文本时会显得力不从心。在这两项任务中GPT-4 都表现出了良好的性能显著优于其他模型。 未来的改进空间也很大。首先对于 LLMs还有多种方法可以破坏单词的 tokenization如插入字母、替换字母等。其次ScrRec 和 ScrQA 这两项任务适用于多种数据集且易于扩展分析。最后由于无法直接访问闭源模型作者没有总结出 LLMs 能够处理这些任务的具体原因。特别地GPT-4 可以近乎完美地完成任务其背后的原因值得深究 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦
http://www.zqtcl.cn/news/360997/

相关文章:

  • iapp网站做软件教程朋友圈广告投放平台
  • 优门设 网站网站代理 正规备案
  • 衡水做wap网站上海做网站吧
  • seo推广思路seo线下培训班
  • 没有备案的网站怎么做淘宝客html5开发手机网站
  • 酒店旅游团购网站建设推广普通话实践总结
  • 基本的网站开发技术路线建设网站的好处有哪些
  • 网站排行怎么做wordpress all in one seo插件
  • 河北特定网站建设推荐wordpress添加vip用户组
  • 北京商城网站建设地址asp.net网站开发 pdf
  • 如何用网页制作网站龙岩门户网站
  • 中国建设银行官网站下载建设网站弹出后加载不进去
  • 广告网站制作多少钱建设工程合同甲方
  • 一号网站建设誉重网站建设
  • 网站seo优化查询网站开发最合适的搭配
  • 做文员的网站知乎qq小程序怎么打开
  • 网站外链建设分析wordpress生成验证码发送代码
  • 网站设计与制作的过程珠海网站建设 旭洁科技
  • 网站建设项目经费的报告轻创网
  • 青岛网站建设制作软件开发培训学校排行
  • pk10网站怎么做网站建设名词
  • 秦皇岛哪有网站优化公司wordpress看图插件
  • ps做网站宽度想做个网站要多少钱
  • 马克斯网站建设外贸电商平台哪个网站最好
  • 国外网站做任务套利网络推广员怎么做
  • 如何创建一个网站用来存放东西wordpress 可以干嘛
  • 做健身俱乐部网站的目的和意义商超网站
  • 网站点击排名phpcms安装
  • 鹧鸪哨网站1v1深度开发最吸引人的营销广告文案
  • 网站建设可以学吗如何修改wordpress的登录