当前位置: 首页 > news >正文

建立网站的是什么人花生壳免费域名注册网站

建立网站的是什么人,花生壳免费域名注册网站,广告公司活动策划公司,公司网站建设计入什么明细科目摘取于https://www.jianshu.com/p/810ca25c4502 任务1#xff1a;Masked Language Model Maked LM 是为了解决单向信息问题#xff0c;现有的语言模型的问题在于#xff0c;没有同时利用双向信息#xff0c;如 ELMO 号称是双向LM#xff0c;但实际上是两个单向 RNN 构成的…摘取于https://www.jianshu.com/p/810ca25c4502 任务1Masked Language Model Maked LM 是为了解决单向信息问题现有的语言模型的问题在于没有同时利用双向信息如 ELMO 号称是双向LM但实际上是两个单向 RNN 构成的语言模型的拼接由于时间序列的关系RNN模型预测当前词只依赖前面出现过的词对于后面的信息无从得知。 那么如何同时利用好前面的词和后面的词的语义呢Bert 提出 Masked Language Model也就是随机遮住句子中部分 Token模型再去通过上下文语义去预测 Masked 的词通过调整模型的参数使得模型预测正确率尽可能大。 怎么理解这一逻辑Bert 预训练过程就是模仿我们学习语言的过程要准确的理解一个句子或一段文本的语义就要学习上下文关系从上下文语义来推测空缺单词的含义。而 Bert 的做法模拟了英语中的完形填空随机将一些单词遮住让 Bert 模型去预测这个单词以此达到学习整个文本语义的目的。 那么 Bert 如何做到”完形填空“的呢 随机 mask 预料中 15% 的 Token然后预测 [MASK] Token与 masked token 对应的最终隐藏向量被输入到词汇表上的 softmax 层中。这虽然确实能训练一个双向预训练模型但这种方法有个缺点因为在预训练过程中随机 [MASK] Token 由于每次都是全部 mask预训练期间会记住这些 MASK 信息但是在fine-tune期间从未看到过 [MASK] Token导致预训练和 fine-tune 信息不匹配。 而为了解决预训练和 fine-tune 信息不匹配Bert 并不总是用实际的 [MASK] Token 替换 masked 词汇。 my dog is hairy → my dog is [MASK] 80%选中的词用[MASK]代替 my dog is hairy → my dog is apple 10%将选中的词用任意词代替 my dog is hairy → my dog is hairy 10%选中的词不发生变化为什么 15% 的 Token 不完全 MASK如果只有 MASK这个预训练模型是有偏置的也就是只能学到一种方式用上下文去预测一个词这导致 fine-tune 丢失一部分信息。 加上 10% 的随机词和 10% 的真实值是让模型知道每个词都有意义除了要学习上下文信息还需要提防每个词因为每个词都不一定是对的对于 Bert 来说每个词都需要很好的理解和预测。 有些人会疑惑加了随机 Token会让模型产生疑惑从而不能学到真实的语义吗对于人来说完形填空都不一定能做对而将文本中某些词随机替换更是难以理解从概率角度来说随机 Token 占比只有 15% * 10% 1.5%预料足够的情况下这并不会影响模型的性能。 因为 [MASK] Token 占比变小且预测难度加大的原因所以 MASK 会花更多时间。 任务2Next Sentence Prediction 在许多下游任务中如问答系统 QA 和自然语言推理 NLI都是建立在理解两个文本句子之间的关系基础上这不是语言模型能直接捕捉到的。 为了训练一个理解句子关系的模型作者提出 Next Sentence Prediction也即是预训练一个下一句预测的二分类任务这个任务就是每次训练前都会从语料库中随机选择句子 A 和句子 B50% 是正确的相邻的句子50% 是随机选取的一个句子这个任务在预训练中能达到 97%-98% 的准确率并且能很显著的提高 QA 和 NLI 的效果。 Input [CLS] the man went to [MASK] store [SEP]he bought a gallon [MASK] milk [SEP] Label IsNextInput [CLS] the man [MASK] to the store [SEP]penguin [MASK] are flight ##less birds [SEP] Label NotNext模型通过对 Masked LM 任务和 Next Sentence Prediction 任务进行联合训练使模型输出的每个字 / 词的向量表示都能尽可能全面、准确地刻画输入文本单句或语句对的整体信息为后续的微调任务提供更好的模型参数初始值。 作者随时学丫 链接https://www.jianshu.com/p/810ca25c4502 来源简书 著作权归作者所有。商业转载请联系作者获得授权非商业转载请注明出处。
http://www.zqtcl.cn/news/103495/

相关文章:

  • 个人网站网页设计模板学校ftp服务器做网站
  • 黄江网站建设外贸公司用的采购储运财务软件
  • 优化网站公司做网站建设
  • 门户网站的盈利模式网站建设中备案
  • 代码需求网站织梦怎么关闭网站
  • 浙江工信部网站备案查询东圃做网站
  • icp网站域名怎么填写官方网站建设银行年利息是多少钱
  • 沈阳做网站好的信息流优化师证书
  • 做招聘网站创业seo优化工作
  • 如何维护网站建设外卖网站建设价钱
  • 南宁保洁网站建设乌克兰服装网站建设
  • ppt链接网站怎么做的nas云存储做视频网站
  • 上海网站制作公司联系方式设计素材网站照片
  • 林州网站建设价格网络舆情是什么意思
  • 网站外链平台的建设方法平台类型(至少5个)?兰州道路建设情况网站
  • 网站建立健全举报工作机制设计电子商务网站主页
  • 广州市建设工程交易服务中心网站沈阳百度推广哪家好
  • 个人网站备案需要什么网站建立的重要性
  • wordpress用户名西安seo代理计费
  • 网站建设前准备工作手机上传视频网站开发
  • 海口网站建设是什么意思wordpress推广码
  • 杭州市住房和城乡建设厅网站海南网站建设设计
  • 网站建设平台一般多少钱wordpress 本地上传服务器
  • 怎么给网站命名男女做羞羞羞的网站
  • 北京响应式网站建设公司信息流推广方式
  • 一级a做爰片迅雷网站微分销系统定制开发
  • 山东网站建设工作室网页设计全部代码
  • 用c 做网站可以吗注册网站什么要求
  • 销售网站排名销售型网站模板
  • wordpress 汽车宁波seo整体优化