当前位置: 首页 > news >正文

简单网站模板保定建站公司模板

简单网站模板,保定建站公司模板,网站强制字体wordpress,wordpress菜单加登陆文 | Yimin_饭煲2021年#xff0c;多模态领域大概是人工智能研究者们关注者最多的一个领域了。随着各种模态数据集的增长和算力的发展#xff0c;研究者们开始不断地尝试在一个模型中融合来自各个模态的信息。而在多模态领域的研究中#xff0c;和视频相关的任务被认为是最复… 文 | Yimin_饭煲2021年多模态领域大概是人工智能研究者们关注者最多的一个领域了。随着各种模态数据集的增长和算力的发展研究者们开始不断地尝试在一个模型中融合来自各个模态的信息。而在多模态领域的研究中和视频相关的任务被认为是最复杂的。一方面高质量的视频数据集比图像数据集更加困难因此数据集的数量和质量往往受限另一方面视频数据集中含有文本、图像、语音等多个模态的信息还要考虑时间线融合起来比单纯的图像-文本数据更加复杂。在AI领域久负盛名的Allen研究所向这一复杂的问题发起了挑战提出了MERLOT系列工作。第一篇 MERLOT:Multimodal Neural Script Knowledge Models 发表于Neurips 2021, 使用了大量的视频数据进行自监督预训练在12个视频问答任务上取得了SOTA而第二篇 MERLOT Reserve:Neural Script Knowledge through Vision and Language and Sound 则于今年年初刚刚发布进一步深度融合了视频中的语音信息在多个任务上又取得了明显提升。下面就让我们一起来学习这两篇十分Solid的工作吧~论文链接:MERLOT: https://arxiv.org/pdf/2106.02636.pdfMERLOT Reserve: https://arxiv.org/pdf/2201.02639.pdf主要方法MERLOT这一工作使用了视觉编码器、语言编码器和联合编码器。作者们设计了三个任务来进行优化。第一个任务是Contrastive Frame-caption matching(标题-帧匹配)作者们使用视觉编码器编码图片得到的[CLS]表示和文本编码器编码句子得到的[CLS]表示进行对比学习使得图像编码器具备较好的表示学习性能。第二个任务是Masked Language Modeling对模型的语言建模能力进行优化。第三个任务是Temporal Reordering, 在40%的情况下, 随机选择一个整数, 从视频输入中的所有帧中随机选取帧并进行打乱将位置编码 (e.g. )替换为随机且独特的位置编码(e.g.). 这些随机的位置编码和原有的位置编码分别进行学习可以让模型学到恢复被扰乱的帧顺序的能力。这个任务的损失函数是针对一对视频帧拼接隐状态使用两层MLP分类器进行二分类(和的前后关系)。MERLOT Reserve这一工作相比于MERLOT引入了新的模态语音。为了更好的融合来自三个模态的信息作者们提出了更通用更统一的训练任务。对于每一个Batch的输入只输入视频的帧和文本/语音中的一个由于文本和语音的信息具有重复性), 并且MASK文本/语音中的一部分。作者们提出了对比区域匹配(Contrastive Span Matching)这一任务, 给定匹配的视频帧/文本/语音数据以文本为例最小化交叉熵损失函数其中为[MASK]位置的隐状态表示为[MASK]掉的信息的隐状态表示为Batch中其他样本(负样本)的隐状态表示。同理定义了定义同样的可以定义和。定义总体的损失函数为作者们还使用了一些技巧来提升得到的特征表示的质量感兴趣的小伙伴可以去原文细读~。数据集对于大规模的预训练工作除开训练方法之外另一个值得关注的部分就是使用的数据集了。MERLOT收集的数据集为YT-Temporal-180M从600万公开的YouTube视频中抽取得到。作者们选取的数据集比起HowTo100M和VLOG等局限于特定领域的数据集范围更大主题更广。后来的实验表明如果仅使用HowTo100M这样的数据集进行训练会降低模型在下游任务上的性能。在MERLOT Reserve这一工作中作者们扩充了数据集提出了YT-Temporal-1B数据集包含2000万Youtube视频进一步提升了数据集的多样性而模型强大的性能也说明了扩充数据的有效性。结果作者们通过大量的实验证实了MERLOT和MERLOT Reserve的有效性。对于MERLOT模型作者们在12个视频问答数据集上开展了实验大幅度刷新了SOTA。MERLOT Reserve模型同样也有非常强大的表现在视频常识推理数据集上取得了不小的性能提升超过了许多使用了其他监督信息的模型。由于MERLOT Reserve使用了大量的数据进行了自监督预训练因此在零样本学习上有着不错的性能在STAR数据集上相比于有监督的SOTA都有着明显的提升。结语多模态技术的发展和商业化也许将会带来人工智能应用的新一轮爆发。以往的多模态应用面临着模型架构复杂、缺少数据、缺少算力等一系列问题而随着Transformer结构一统天下互联网上各模态数据的井喷式增长计算资源越发普及这些问题都在慢慢得到解决。MERLOT系列工作刷新了我们认知中视频理解领域的上限向我们展示了视频、语音、文本多模态高效融合的一种可能性。未来让我们一起努力朝着多模态领域的BERT模型进发吧萌屋作者Yimin_饭煲在微软NLC组搬砖的联培博士生爱好摄影和运动希望卖萌屋早日开通视频业务我来当摄影师作品推荐学完文本知识我就直接看懂图片了别再Prompt了谷歌提出tuning新方法强力释放GPT-3潜力大模型炼丹无从下手谷歌、OpenAI烧了几百万刀总结出这些方法论…后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集
http://www.zqtcl.cn/news/265671/

相关文章:

  • 微网站模板标签网站被攻击怎么让百度重新蜘蛛自动抓
  • 自己想做一个网站网页背景怎么设置
  • 国外做项目的网站软件定制外包平台
  • 做网站要用什么软件房地产建设网站
  • 龙岗爱联有学网站建设装饰公司简介
  • pc端网站怎么做自适应哪个公司网站备案快
  • 品牌网站建设黑白I狼J烟台开发区建设业联合网站
  • 做视频网站可以自学吗php html5企业网站源码
  • 阿里云怎么部署网站引流推广平台是什么意思
  • 江山建设工程信息网站营销网讯
  • 网站制作公司 沈阳上海建设主管部门网站
  • 网站建设前期如何做好市场定位分析网络推广主要工作内容
  • 做一个网站的流程是什么金融网站建设方案
  • 汽车维修保养网站模板北京网站建设知名公司排名
  • 网站建设案例分享网络推广网
  • 广州知名网站推广app软件开发制作公司电话
  • 泉州专业网站建设seo是指什么职位
  • 怎么做房产网站张家港高端网站制作
  • 做网站运营公司收费广东短视频seo搜索哪家好
  • 外贸网站 源码做的好详情页网站
  • 冀州网站制作邢台百姓网官网
  • 佛山做外贸网站方案自助网站推广系统
  • 安徽鸿顺鑫城建设集团网站小区物业管理网站开发报告
  • 有关网站建设文章常熟做网站多少钱
  • 网站流量报表江苏住房和城乡建设厅网站
  • 提供做网站公司有哪些个人建网站的费用
  • 网站后台添加表格wordpress垂直分页导航插件
  • 重庆网站建设有限公司六安市裕安区建设局网站
  • 北京产品网站建设如何做移动支付网站
  • 做同城购物网站赚钱吗设计企业网站流程