当前位置: 首页 > news >正文

网站 黑白网站的分析与设计

网站 黑白,网站的分析与设计,什么网站做详情页好,网络项目发布平台更精简的论文学习笔记 1、摘要 多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而#xff0c;学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。为了解决这个问题#xff0c;共同注意力为每个模态建立了两个独立的注意分布#x…更精简的论文学习笔记 1、摘要 多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。为了解决这个问题共同注意力为每个模态建立了两个独立的注意分布忽略了多模态输入之间的相互作用。在本文中我们提出了双线性注意力网络BAN它可以找到双线性注意力分布来无缝地利用给定地视觉语言信息。BAN考虑两组输入通道之间的双线性交互而低秩双线性池化提取每对通道地联合表示。此外我们提出了一种多模态残差网络的变体以有效地利用BAN的注意力图。在VQA 2.0和Flickr30k实体数据集上定量和定性地评估模型表明BAN显著优于以前的方法并在这两个数据集上达到了新的水平。 2、介绍 由于视觉和自然语言是人类互动的主要方式对视觉和自然语言信息的理解和推理成为一个关键的挑战。例如视觉问题回答涉及到视觉和语言的交叉问题。人们希望机器能够利用基于视觉的信息回答给定的问题比如“谁戴着眼镜”“雨伞是不是倒了”或者“床上有几个孩子”。 由于这个原因基于视觉注意力的模型已经成功地完成了多模态学习任务在模型1定义的图像的空间地图中识别出选择性区域。此外文本注意可以与视觉注意一起考虑。共同注意力网络的注意机制同时推断出每种模态的视觉和文本注意分布。除了部分图像区域外共同注意网络还选择性地关注问题词。然而共同注意忽略了单词和视觉区域之间的相互作用以避免增加计算复杂度。 在本文中我们将共同注意的思想扩展到双线性注意双线性注意考虑了每一对多模态通道如疑问词对和图像区域对。当给定问题涉及由多个词表示的多个视觉概念时使用每个词的视觉注意分布比使用单个压缩注意分布的推理能更好地挖掘相关信息。 在这种背景下我们提出了双线性注意力网络BAN在低秩双线性池化的基础上使用双线性注意力分布。BAN利用两组输入通道之间的双线性交互而低秩双线性池化提取每对通道的联合表示。此外提出了一种多模态残差网络MRN的变体以有效地利用BAN的多个双线性注意图通过连接被关注的特征来使用多个注意图。由于所提出的残差学习方法利用残差求和而不是串联因此可以有效地学习到参数高效和性能有效的八目BAN。关于双视图BAN的概述参考图1. 上图中双目BAN采用目标检测特征和GRU隐藏向量两个多通道输入得到双线性注意图和联合表示供分类器使用。 提出双线性注意力网络BAN来学习和使用双线性注意力分布在低秩双线性池化技术的基础上。 提出一种多模态残差网络MRN的变体以有效地利用我们的模型生成的双线性注意图。与以往的工作不同我们的方法成功地利用了多达8个注意图最后在一个大型且竞争激烈的VQA2.0数据集上验证该方法。模型达到了保持模型结构简单性的新水平。此外在Flick30k实体上的双线性注意图的视觉基础优于先前的方法同时利用多通道输入的处理推理速度提高了25.37%。 3、低秩双线性池化 低秩双线性池及其在注意力网络中的应用它使用单通道输入问题向量结合其他多通道输入图像特征作为单通道中间表示出席特征。 1低秩双线性模型 前人提出了一种低秩双线性模型降低双线性权重矩阵Wi的秩使其具有规律性。为此Wi被替换为两个较小的矩阵Ui和Vi的转置的乘法。因此这种替换使得Wi的秩最大为dmin(N,M).对于标量输出fi省略偏置项而不失一般性 。表示哈德曼乘积逐元素乘法 2低秩双线性池化 对于输出向量f引入池化矩阵P 它允许U和V是二维张量通过对于输出向量f引入向量P显著减少参数的数量。 3单一注意力网络 注意力提供了一种有效的机制通过选择性地利用给定的信息来减少输入通道。 如果G1则使用多个注意头则 最后两个单通道输入x、y可通过其他低秩双线性池化获得联合表示用于分类器。 4、双线性注意力网络 5、相关工作 6、实验 1数据集 VQA2.0 -评估指标考虑人与人之间的可变性定义 Accuracy(ans) min(#humans that said ans/3,1)Flickr30k Entities 它由31783张图像和244035个答案组成将句子中的多个实体映射到图像的方框上以指示它们之间的对应关系。任务是为每个实体定位相应的框。通过这种方式文本信息的视觉基础得到了定量测量。根据评价指标如果一个预测框与其中一个真实基准框的重叠区域IoU大于等于0.5则给定实体的预测是正确的这个指标叫做Recall1。如果允许K个预测找到至少一个正确的则称为RecallK。我们通过Recall1、5和10来比较最新的技术水平。如果检测器提出候选盒进行预测则性能的上界取决于目标检测的性能。 2预处理 问题嵌入 对于VQA我们使用Glove词嵌入和门控循环单元的输出来得到问题嵌入将问题最多嵌入为14个单词向量短于14个单词的向量用0补齐。对于Flickr30k使用完整的句子长度最大82。我们标记每个答案短语末尾的标记位置。然后我们使用这些位置选择GRU输出通道的一个子集使通道的数量等于句子中实体的数量。单词嵌入和GRU在训练中进行了微调。图像特征 我们使用自底向上的注意力机制提取图像特征。这些特征是Faster R-CNN的输出使用Visual Genome进行预训练。设置每张图的目标数目范围介于[10,100]。为避免填充部分对于模型的训练产生负面影响在logits中的填充位置使用负无穷大的值这样在应用softmax后这些位置对应的概率值就会趋向于0。 3非线性和分类器 非线性 分类器 在VQA任务中采用两层的多层感知机MLP作为用于生成最终联合表示的分类器激活函数采用ReLU。分类器的输出数量由数据集中某个答案在唯一问题的最小出现次数确定而这个答案在整个数据集中出现了9次因此分类器的输出维度为3129。损失函数采用二元交叉熵。 对于Flickr30k Entities任务使用双线性注意力图的输出采用二元交叉熵作为损失函数。 4超参数设置和正则化策略 7、VQA结果和讨论 1量化结果 与最先进技术的比较 表格1中的第一行展示了2017年VQA挑战的获胜架构。BAN明显优于这个基准并成功地利用了高达八个双线性注意力图通过注意力的残差学习来改善性能。 如表3所示BAN在性能上远远优于使用相同bottom-up注意力特征的最新模型。BAN-Glove使用300维的Glove单词嵌入和这些嵌入的语义封闭混合的串联形式见附录A.1。请注意表3中的竞争性模型中可以找到类似的方法它们对相同的600维词嵌入采用不同的初始化策略。BAN-Glove-Counter同时使用了先前的600维词嵌入和计数模块该模块利用来自特征提取器的检测到的对象框的空间信息。计数机制的学习表示c ∈ R^(φ1)经过线性投影并在应用ReLU后添加到联合表示中见附录A.2中的方程15 在表5附录中我们与VQA Challenge 2017和2018的排行榜条目进行比较我们在提交时获得了第一名由于挑战条目不可见我们的条目未显示在排行榜上。 去其他注意力模型的比较 与其他注意力方法的比较。单一注意力与Kim等人的具有相似的架构其中使用问题嵌入向量来计算图像的多个特征的注意力权重。协同注意力具有与Yu等人[39]相同的机制类似于Lu等人Xu和Saenko其中多个问题嵌入通过自注意力机制组合为单个嵌入向量然后应用单一视觉注意力。表2证实双线性注意力明显优于任何其他注意力方法。协同注意力略优于简单的单一注意力。 在图2a中协同注意力绿色比其他方法更严重地受到过拟合的影响而双线性注意力蓝色相比其他方法更加规范化。在图2b中BAN是各种注意力方法中最有效的参数之一。请注意四个glimpse的BAN比一个glimpse的BAN更节省参数的使用。 图2a学习曲线。双线性注意力bi-att比单一注意力uni-att和协同注意力co-att更能抵御过拟合。 b参数数量的验证得分。误差栏表示在三个随机初始化模型之间的标准差尽管对于超过15M个参数来说它太小而难以注意到。 c用于评估的前N次glimpsesx轴的剖析研究。 d四次glimpse BAN中每个注意力图的信息熵y轴。多个注意力图的熵趋于某些水平。 2注意力的残差学习 与其他方法的比较 在表2的第二部分中注意力的残差学习明显优于其他方法即sum和concatenationconcat。然而sum和concat之间的差异并不显著。请注意concat的参数数量大于其他方法因为分类器的输入尺寸增加了。 消融实验 残差学习的一个有趣特性是对于任意剖析都具有鲁棒性。为了了解相关贡献我们观察进行增量消融时验证得分的学习曲线。首先我们使用训练集训练{1,2,4,8,12}-glimpse模型。然后我们使用前N个注意力图在验证集上评估模型。因此中间表示fN直接馈送到分类器而不是fG。如图2c所示第一个glimpse的准确度增益最高随着使用的glimpses数量的增加增益逐渐减小。 注意力的熵 我们分析了四次glimpse BAN中注意力分布的信息熵。如图2d所示验证集中每个注意力的平均熵趋于不同水平的值。这个结果在其他数量的glimpse模型中也可重复观察到。我们的猜测是多个注意力图对模型的学习并不均等地做出相似的贡献而是对多步骤注意力的残差学习有同样的贡献。我们认为这是一个新颖的观察其中残差学习被用于堆叠的注意力网络。 3定性分析 图3展示了一个两次glimpse的BAN的可视化结果。问题是“滑板男子穿什么颜色的裤子”。问题中的关键词和内容词例如“what”、“pants”、“guy”、“skateboarding”以及图像中滑板者穿的裤子都受到了关注。请注意框2橙色捕捉到了底部坐着的男子的裤子。 图3中的结果即两次glimpse的BAN的双线性注意力图的可视化。图中左右两组分别表示第一个和第二个双线性注意力图同时显示了可视化的图像。在每组中右侧是对数缩放的注意力图左侧是可视化的图像。通过边缘化确定的第一个注意力图中最显著的六个框在两个图像上都进行了可视化以进行比较。模型给出了正确的答案即裤子的颜色是褐色。 8、Flickr30k的结果及讨论 为了检验双线性注意力图捕捉视觉-语言交互的能力我们在Flickr30k Entities上进行了实验。我们的实验结果表明在推理速度较高的情况下BAN在短语定位任务上的性能远远超过了先前的最先进技术差距达到了4.48%。 性能 在表4中我们与其他先前的方法进行了比较。我们的双线性注意力图用于预测句子中短语实体的边界框在Recall1取得了69.69%的新水平。考虑到BAN没有使用任何额外的特征如边界框大小、颜色、分割或姿态估计这个结果是显著的。请注意Query-Adaptive RCNN和我们的现成对象检测器 都是基于 Faster RCNN 并在 Visual Genome上进行预训练的。与 Query-Adaptive RCNN 相比我们对象检测器的参数是固定的并且仅用于提取 10-100 个视觉特征和相应的边界框提议。 表4Flickr30k Entities的测试分割结果。我们报告了我们三个随机初始化模型的平均性能R1的标准差为0.17。给出了目标检测器断言的性能上限。请注意Hinami和Satoh以及我们的检测器都基于 Faster RCNN在 Visual Genome 数据集上进行了预训练。 类型 在表6中我们报告了每种类型的Flickr30k Entities的结果。请注意服装和身体部位的性能显著提高分别达到了74.95%和47.23%。 速度 我们的BAN利用多通道输入实现了更快的推理速度。与先前的方法不同BAN能够推断句子中的多个实体这可以准备成一个多通道输入。因此需要推断的前向传播次数显著减少。在我们的实验中BAN每个实体花费0.67毫秒而将单个实体作为示例的设置花费0.84毫秒实现了25.37%的改进。我们强调这个性质在我们的模型中是新颖的考虑了视觉-语言多通道输入之间的每种交互。 可视化 图4显示了来自Flickr30k Entities测试分割的三个例子。在图4a中具有视觉属性的实体例如黄色的网球服和白色的网球鞋是正确的。然而相对较小的对象例如图4b中的香烟和需要语义推断的实体例如图4c中的男性指挥家是不正确的。 图4:显示了来自Flickr30k实体测试分割的可视化示例。实线框表示预测的短语本地化虚线框表示基本事实。如果有多个接地真值框则显示最近的框进行调查。短语的每种颜色都与预测框和基本真值框的相应颜色相匹配。最好的彩色视图。 9、结论 BAN通过优雅地扩展单一注意力网络利用双线性注意力图其中使用低秩双线性池提取了多模态多通道输入的联合表示。尽管BAN考虑了每一对多模态输入通道但由于BAN采用了矩阵链乘法进行高效计算计算成本仍然保持在相同的数量级。所提出的注意力残差学习有效地利用了多达八个双线性注意力图保持了中间特征的大小不变。我们相信我们的BAN为学习更丰富的多模态多通道输入的联合表示提供了新的机会这在许多实际问题中都有应用。
http://www.zqtcl.cn/news/927062/

相关文章:

  • 专业网站建设品牌策划商务网站建设与维护考试
  • 网站开发手机版WordPress如何清空评论
  • 公司怎么建立网站吗010网站建设
  • 网站制作找哪家公司好湖北专业网站建设大全
  • 广州建设网站是什么关系wordpress 插件位置
  • 网站建设工作室 怎么样做一个网站需要多少钱
  • 北京网站制作人才免费企业网站源码
  • 微信商城网站怎么做网站备案是先做网站还是做完了备案
  • 工商局网站查询入口wordpress 文章列表顺序
  • 可以做平面设计兼职的网站模板商城建站
  • 织梦网站如何做301跳转畅销营销型网站建设电话
  • 新网企业邮箱保定seo
  • 河南国控建设集团招标网站网上注册公司核名流程
  • 推推蛙网站建设云南网站开发费用
  • 网站没服务器行吗价格低廉怎么换个说法
  • 用wordpress编写网站完整网站开发视频教程
  • 电商型网站建设价格ppt制作网站
  • 东莞做个网站查询工商营业执照
  • 从网址怎么看网站的域名租用云服务器多少钱
  • 网站开发技术有个人网页首页设计图片
  • 一站式网站建设平台做电商网站需要做什么准备
  • 网站开发小程序快站模板
  • 江苏集团网站建设智慧养老网站开发
  • 外网网址可以做英语阅读的网站怎么原创视频网站
  • 宁波网站建设流程图自己做网站可以揽业务吗
  • 赤峰市建设网站东胜做网站
  • 有口碑的坪山网站建设微信扫一扫登录网站如何做
  • 自己建网站要花多少钱蓟县网站建设
  • 兖州中材建设有限公司网站wordpress免签约接口
  • 湖北网站seo设计成都疾控最新通告