当前位置: 首页 > news >正文

沂南网站设计明星静态网站

沂南网站设计,明星静态网站,西安中高风险地区查询,电子工程专业大学排名前言 BERT的出现让NLP发展实现了一个大飞跃#xff0c;甚至有大佬说NLP已经没有可以做的啦#xff0c;后面就是拼机器拼money了。但是#xff0c;我认为任何领域的进步之后都会有更苛刻的要求#xff0c;科研没有尽头#xff0c;需求也永远无法满足。而多模态#xff0c…前言 BERT的出现让NLP发展实现了一个大飞跃甚至有大佬说NLP已经没有可以做的啦后面就是拼机器拼money了。但是我认为任何领域的进步之后都会有更苛刻的要求科研没有尽头需求也永远无法满足。而多模态要求机器拥有多维度的感知能力就是一个更强的挑战。 关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。 所以为了迎上发展的势头在继videoBERT之后又调研了一番image和BERT结合的工作。下文将介绍MSRA出品的VL-BERT通过这个模型来一览现阶段 imageBERT 的研究现状吧。 后台回复【VL-BERT】下载论文原文~~ 模型介绍 VL-BERT模型以transformer为骨干将BERT的输入扩展为文本图像。那么问题来了怎样将两者花式融合呢让我们揣测一下作者的炼丹思路 图片和文本没法直接对齐暴力输入整张图 于是就有了图中用红色虚线框起来的部分直接将图像、文本、segment和position embeding加和输入。这样做MLM任务是没问题了但怎样确定模型能准确提取图像信息呢 提取图像中的重要部分增加无文本的图像输入 由于整张图片的粒度远大于文本token一次性输入整张图片显然不利于图像和文本信息的交互。所以使用了目标检测工具对图片进行分块提取图像中感兴趣的核心部分RoIregion-of-interest加上[IMG]标识输入到模型中图中浅绿色实线框起来的部分。 为了不失掉全局信息在[END]对应的位置又加上了整张图像。另外我们假设图片的不同区域是没有顺序可言的即position embedding是一样的。 类比文本输入模型实际上接受的是文本tokensubword对应的word embedding所以我们会对所有图像输入不管是整张图片还是局部RoIs使用pre-trained R-CNN提取2048维的visual feature embedding输入到模型中。 自监督学习任务pretrain 结合上文介绍的模型结构再强调一下两个预训练任务 Masked Language Model with visual Clues 根据文本图像信息预测文本token升级版的MLM。 唯一不同的是被mask的word除了根据没被mask的文本来预测还可以根据视觉的信息来辅助。比如上图中的例子被mask后的word sequence是kitten drinking from [MASK]如果没有图片给我们的视觉信息是无法预测出被mask的词是bottle。 Masked RoI Classification with LinguisticClues 根据文本图像信息预测RoIs的类别针对图像的“MLM”。 以下图为例首先对图片使用目标检测工具提取RoIs并获得所属类别然后随机mask局部区域树叶部分。需要注意的是由于模型会接收整张图片的输入为了避免信息泄露整张图片对应的部分也要mask。最后模型根据文本信息和被mask的图片信息预测mask区域所属类别。 下游任务finetune 模型通过接收text, image输入通过自监督任务学习到general跨模态表示后可以很自然的应用很多跨模态的任务中。延续原始BERT的设定[CLS]最后输出的feature可以预测文本和图片的关系sentence-image-relation被mask的text token或者RoI的输出用来做word-level或者RoI-level的预测。 下面来看看不同的下游任务是怎么实现的叭~ 视觉常识推理(VCR) 给定一张图片中的多个RoIs和问题Q需要选出答案A并解释为什么R。VCR任务超越目标检测object detection是需要结合认知层面的复杂推理任务。下图展示了数据中的两个例子[1]确实很难很复杂????。 整体任务{Q-AR}可以拆解成两个子任务 {Q-A}根据问题Q预测答案A 和 {QA-R}根据QA推理原因R。而这两个子任务都是选择题模型只需要从候选答案中挑选认为最正确的选项就好。如下图文本输入由两部分组成Question已知信息和Answer候选答案图像输入为人工标注的RoIs。针对{Q-A}任务已知的文本信息为问题Q的文本描述。对{QA-R}任务已知的文本信息为问题Q加上一个任务预测的答案A。两个任务都根据最后一层[CLS]的输出预测该候选答案A/R是否正确。 有一个不合理的地方是正常人的思维模式是先有一个靠谱的理论依据R得出正确答案A。但是上面模型的逻辑是先有正确答案再去找合理的原因。因果颠倒。 最终结果不管是对比task-specific模型R2C还是其他多模态模型VL-BERT都有非常明显的优势的。 视觉问答 (VQA) 文章follow了一个专门针对VQA任务设计的模型BUTD实验设定把VQA任务转化为一个有3k候选答案的多分类问题根据被masked Answer token最后一层的输出预测。 相比special design的网络结构BUTDVL-BERT在准确率上提升了5%和其他多模态pretrain model效果相当。 Referenceing Expression Comprehensionvisual grounding 这个任务呢是根据一句自然语言的描述定位图片中的具体区域即判断这句描述讲的是图片的哪个位置。 因为我们已经对图片划分出了RoIs所以只需要将每个RoIs最后的输出接一个Regin classification二分类判断Query是否是描述这个区域即可。 分析 VL-BERT模型以transformer为骨干将BERT扩展可以同时接受文本和图片型输入学习跨模态的表示在三个下游任务上远超task specific的SOTA模型并取得和其他pretrain模型comparable或者略胜一筹的结果。 其主要的优势在于 文本和图片的深度交互。对比同期工作LXMERT[2]对text和image输入分别使用single-modal Transformer然后再接一个cross-modal TransformerVL-BERT使用一个single cross-modal Transformer让文本和图片信息能更早更多的交互。 但是这个工作我认为还是有一个需要打问号或者进一步深入研究的地方。 文章使用的两个自监督任务都是由MLM衍生而来没有判断文本和图片是否一致Sentence-Image Relation Prediction的这个典型任务。 文章在对比实验分析中提到加入Sentence-Image Relation Prediction任务进行预训练会导致下游任务效果下降原因分析是由于数据质量问题sentence-image对应信号噪声较大。 但是直觉上文本和图片的对应关系是一个很强的学习跨模态表示的信号并且在ViBERT[3]和LXMERT上该任务是有正向收益的。 如果优化数据质量减少sentence-imgage对应信号的噪声是否可以优化VL-BERT的效果 如果仍然是负收益是否是另外两个自监督任务已经涵盖了sentence-image对应信息增加这个任务唯一的作用就是带来了数据的噪声 这三个自监督任务是否存在冲突或者矛盾的地方其关系是什么值得进一步的研究和探索。 关注【夕小瑶的卖萌屋】后台回复【VL-BERT】下载带笔记的论文原文~~
http://www.zqtcl.cn/news/712041/

相关文章:

  • j动态加载网站开发南京建设网站公司哪家好
  • 云南网站建设工具wordpress防御ip攻击
  • 珠海市网站建设开发公司站长工具whois查询
  • 网站备案icp过期网站建设好了怎么做推广
  • 网站自动识别手机代码网络服务器是指
  • 做自媒体那几个网站好点乐清做网站建设
  • 如何制作自己的网站在线观看2021网页源码
  • 电子商务网站建设百度文库工业设计公司招聘
  • 网站seo测评餐厅设计公司餐厅设计
  • 深圳网站seo推广wordpress swf 上传
  • 织梦做双语网站怎么做制作网站的教程
  • 公司网站开发的国内外研究现状个人网页设计大全
  • 做一个网站人员网站建设及推广优化
  • 胶州市城乡建设局网站能进封禁网站的浏览器
  • 网站做几级等保荣耀商城手机官网
  • 营销网站费用渭南网站建设公司
  • wordpress主题集成插件下载网站如何做360优化
  • 有什么在线做文档的网站网站开发需要用到哪些技术
  • 网站套餐可以分摊吗吗移动登录网页模板免费下载
  • asp网站会员注册不了但是打不开网页
  • wordpress 中文网店杭州排名优化公司
  • wordpress建站安全吗wordpress企业主题教程
  • 网站构建的开发费用信息管理系统网站开发教程
  • 自己做网站怎么维护wordpress素材模板
  • 如何选择一个好的优质网站建设公司wordpress 主题小工具
  • mysql数据库做网站广州网站seo地址
  • 福建省住房和城乡建设厅网站电话网站开发项目步骤
  • 网站注册域名多少钱淘宝网商城
  • 做架构图的网站网站和网店的区别
  • 做红包网站简单个人网站设计