当前位置: 首页 > news >正文

做ppt哪个网站的图片好2022重大时政热点事件简短

做ppt哪个网站的图片好,2022重大时政热点事件简短,wordpress 自定义查询,如何将项目发布到网上作者#xff1a;Kawin Ethayarajh编译#xff1a;ronghuaiyang #xff08;AI公园#xff09;具有上下文信息的词表示到底有多大程度的上下文化#xff1f;这里给出了定量的分析。将上下文信息放到词嵌入中 — 就像BERT#xff0c;ELMo和GPT-2 — 已经证明了是NLP的一个分…作者Kawin Ethayarajh编译ronghuaiyang AI公园具有上下文信息的词表示到底有多大程度的上下文化这里给出了定量的分析。将上下文信息放到词嵌入中 — 就像BERTELMo和GPT-2 — 已经证明了是NLP的一个分水岭的想法了。使用具有上下文信息的词表示来替换静态词向量例如word2vec在每个NLP任务上都得到了非常显著的提升。但是这些上下文化的表达到底有多大程度的上下文化呢想想“mouse”这个词。它有多种词义一个指的是啮齿动物另一个指的是设备。BERT是否有效地在每个词的意义上创造了一种“mouse”的表达形式或者BERT创造了无数个“mouse”的形象每一个都是和特定的上下文相关在我们的EMNLP 2019论文“How Contextual are Contextualized Word Representations?”中我们解决了这些问题并得出了一些令人惊讶的结论在BERT、ELMo和GPT-2的所有层中所有的词它们在嵌入空间中占据一个狭窄的锥而不是分布在整个区域。在这三种模型中上层比下层产生更多特定于上下文的表示然而这些模型对单词的上下文环境非常不同。如果一个单词的上下文化表示根本不是上下文化的那么我们可以期望100%的差别可以通过静态嵌入来解释。相反我们发现平均而言只有不到5%的差别可以用静态嵌入来解释。我们可以为每个单词创建一种新的静态嵌入类型方法是将上下文化表示的第一个主成分放在BERT的较低层中。通过这种方式创建的静态嵌入比GloVe和FastText在解决单词类比等基准测试上的表现更好。回到我们的例子这意味着BERT创建了与上下文高度相关的单词“mouse”的表示而不是每个单词都有一个表示。任何“mouse”的静态嵌入都会对其上下文化表示的差异造成很小的影响。然而如果我们选择的向量确实最大化了可解释的变化我们将得到一个静态嵌入这比GloVe或FastText提供的静态嵌入更好。上下文化的度量上下文化看起来是什么样的考虑两个场景A panda dog runs.A dog is trying to get bacon off its back.注意这些度量都是针对给定模型的给定层计算的因为每个层都有自己的表示空间。例如单词‘dog’在BERT的第一层和第二层有不同的self-similarity值。各项异性调整当讨论上下文时考虑嵌入的各向同性是很重要的。即它们是否在各个方向均匀地分布)。在下面的两个图中SelfSim’dog‘)0.95。左边的图片显示“dog”这个词没有很好的上下文化。它的表现形式在它出现的所有上下文中几乎都是相同的而且表示空间的高各向同性表明0.95的self-similarity是非常高的。右边的图像则恰恰相反因为任何两个单词的余弦相似度都超过了0.95所以‘dog’的自相似度达到0.95就没什么了不起了。相对于其他单词‘dog’会被认为是高度上下文化的为了调整各向异性我们为每个测量值计算各向异性基线并从相应的原始测量值中减去每个基线。但是有必要对各向异性进行调整吗有如下图所示BERT和GPT-2的上层是极具各向异性的这表明高的各向异性是上下文化过程的固有特征或者至少是其结果特定上下文一般来说在更高的层中上下文化的表示更特定于上下文。下图所示自相似度的降低几乎是单调的。这类似于在NLP任务上训练的LSTMs的上层如何学习更多特定于任务的表示(Liu et al. 2019)。GPT-2是最具特定上下文化的其最后一层中的表示几乎是与上下文相关程度最高的。**自相似度最低的停止词比如包括“the”。最特定于上下文表示的词)。**一个词出现在多种上下文中而不是其固有的一词多义是其上下文化表示变化的原因。这表明ELMo、BERT和GPT-2并不是简单地为每个词赋予一个表示否则就不会这么少的词意表示会有这么多的变化。**特定上下文表示性在ELMo、BERT和GPT-2中表现得非常不同。**如下图所示在ELMo中相同句子中的单词在上层中更相似。在BERT中同一句话的上层单词之间的相似性更大但平均而言它们之间的相似性比两个随机单词之间的相似性更大。相比之下对于GPT-2同一句话中的单词表示彼此之间的相似性并不比随机抽样的单词更大。这表明BERT和GPT-2的上下文化比ELMo的更微妙因为他们似乎认识到出现在相同上下文中的单词不一定有相同的意思。静态 vs. 上下文化平均而言在一个词的上下文化表示中只有不到5%的差异可以用静态嵌入来解释。如果一个单词的上下文化表示完全与上下文无关那么我们期望它们的第一个主成分能够解释100%的变化。相反平均不到5%的变化可以被解释。这个5%的阈值代表了最佳情况其中静态嵌入是第一个主成分。例如没有理论保证GloVe向量与最大化可解释变化的静态嵌入相似。这表明BERT、ELMo和GPT-2并不是简单地为每个词意义分配一个嵌入否则可解释的变化比例会高得多。在许多静态嵌入基准上BERT的低层上下文化表示的主成分表现优于GloVe和FastText。这个方法将之前的发现归结为一个逻辑结论如果我们通过简单地使用上下文化表示的第一个主成分为每个单词创建一种新的静态嵌入类型结果会怎样事实证明这种方法出奇地有效。如果我们使用来自底层BERT的表示这些主成分嵌入在涉及语义相似、类比求解和概念分类的基准测试任务上胜过GloVe和FastText(见下表)。对于所有这三种模型从低层创建的主成分嵌入比从高层创建的主成分嵌入更有效。那些使用GPT-2的人的表现明显比来自ELMo和BERT的人差。考虑到上层比下层更特定于上下文考虑到GPT-2的表示更特定于上下文这表明不太特定于上下文的表示的主成分对这些任务更有效。总结在ELMo、BERT和GPT-2中上层比下层产生更多特定于上下文的表示。但是这些模型对单词的上下文环境非常不同在调整了各向异性之后ELMo中相同句子中的单词之间的相似性最高而GPT-2中几乎不存在。平均而言在一个词的上下文化表示中只有不到5%的变化可以用静态嵌入来解释。因此即使在最佳情况下静态词嵌入也不能很好地替代上下文化的词。尽管如此上下文化的表示可以用来创建更强大的静态嵌入类型BERT的低层上下文化表示的主成分比GloVe和FastText要好得多
http://www.zqtcl.cn/news/33270/

相关文章:

  • 电子商务网站功能设计域名购买哪个网站好
  • 重庆专业网站推广时间网页制作软件案例
  • 怎么跟网站建设公司谈门户和网站的区别
  • 服装型网站开发比较有设计感的网站
  • 企业英文网站建设seminar什么意思中文
  • 泸州网站建设公司河北seo搜索引擎优化
  • ps如何做psd模板下载网站网站建设广州天河
  • 响应式网站建设系统企业做定制网站的好处
  • 国家建设厅网站怎么做专题网站
  • 北京网站建设华网天下网站建设公司创业
  • 海尔集团的电子商务网站建设随州网站
  • 兰州起点网站建设电商小白如何做网店运营
  • 猎头公司网站建设方案管理咨询公司收费标准报价单
  • 哪个网站可以做ppt赚钱昆山广告公司
  • 2017网站风格洛可可设计公司现状
  • 西宁网站制作哪里好网站页尾设计
  • 易语言做网站爆破工具阿里万网怎么做网站
  • 罗庄网站建设seo价格查询公司
  • 平台型网站建设预算表砍价小程序怎么赚钱
  • 网站 内容太原网站模板公司
  • 没有网站怎么做cpa做一套网站多钱
  • 南宁市兴宁区建设局网站广州最新新闻发大水
  • 网站界面设计说明网站域名备案
  • ppt网站建设答案我想做地推怎么找渠道
  • 淘城汇网站谁做的网址提交百度
  • 邵阳哪里做网站wordpress数据库连接文件
  • 织梦网站系统删除不了广州网站建设q.479185700強
  • 富阳做兼职的网站上海专上海专业网站制作公司
  • 邵阳营销型网站百度推广
  • 网站ui 特点网站建设公司如何推广