当前位置: 首页 > news >正文

武夷山网站推广长春网站建设营销q479185700刷屏

武夷山网站推广,长春网站建设营销q479185700刷屏,百度网站排名关键词整站优化,有没有资源可以在线观看转载公众号 | 老刘说NLP当前以促进技术发展、提升模型指标#xff0c;探究模型天花板的竞赛越来越多#xff0c;也逐步成为各大研究机构、互联网大厂竞相角逐的主战场。自2022年以来#xff0c;在组员的共同努力下#xff0c;团队(360人工智能研究院知识图谱算法团队)…转载公众号 | 老刘说NLP当前以促进技术发展、提升模型指标探究模型天花板的竞赛越来越多也逐步成为各大研究机构、互联网大厂竞相角逐的主战场。自2022年以来在组员的共同努力下团队(360人工智能研究院知识图谱算法团队)陆续在知识表示、多模态知识融合、知识匹配三个方向上进行探索并参加相关比赛取得了一定的成绩。其中知识表示方向上提出StarGraphTripleRE知识表示模型当前结果在OGB-wikikg2榜位列第一名。可用于图谱表征、实体链接预测、知识补全等潜在应用场景。多模态知识融合上采用基于交互编码与蒸馏的多模态实体对齐模型在ccks2022基于知识图谱的商品同款挖掘评测中获得第二名。该模型可用于图谱融合对齐场景。知识匹配方向上采用混合对比学习与课程式难负例采样的搜索匹配模型在2022问天引擎电商搜索算法赛获得第二名。该模型可用关于图谱推荐、实体匹配等场景。本文是对这三个竞赛的总结性回顾供大家一起参考。一、OGB-wikikg2实体链接预测任务1、任务描述就OGB评测而言其包括了面向节点属性补全的Node Property Prediction、预测边缘节点对属性的Link Property Prediction以及面向整个图或子图的属性预测的Graph Property Prediction任务。ogbl-wikikg2数据集是从维基数据知识库中提取的知识图谱包含一个三元组head、relation、tail捕捉了世界实体之间的不同类型的关系例如加拿大、公民、辛顿。通过检索维基数据中的所有关系语句并过滤掉稀有实体形成的KG包含2,500,604个实体和535种关系类型。该任务是预测新三元组即给定一组训练三元组预测一组新的测试三元组也就是对于每个测试三重head、relation、tail要求模型从head、relation预测tail实体。通过用随机采样的1000个负实体head500个tail500个替换其head或tail来生成每个测试三元组并确保由此产生的三元组不会出现在原始KG中目标是对真实head或tail实体进行高于负实体的排名。2、所用模型去年年末由360提出的TripleRE全名Knowledge Graph Embeddings Via Triple Relation Vectors直译过来就是通过三份关系向量进行知识图谱嵌入创新的将TransE与pairRE进行融合。1模型示意图PairRE模型将头实体和尾实体分别做投影得到一个向量表示可以有效的建模对称性关系。而是否可以将TransE与它进行融合呢。带着这种思想我们提出了tripleRE在原有2段关系向量的基础上加入一个中间翻译向量形成三段。我们可以看到的是中间翻译向量为0的时候也就等同于PairRE。2、score function公式TripleRE共设计了三个score-function其中第三个版本中在InterHT的启发下, 我们发现实体的转换形成可以学到更多的实体信息因此我们尝试在TripleRE中加入基于实体的转换表示并将实体分为三个部分, 即h1, h2, h3和t1, t2, t3。而其中的nodepiece由于采样方法的局限性并不能有效的区分实体之间的差异性所以我们在今年5月份的版本中优化nodepiece的采样方式提出StarGraphTripleRE知识表示模型MRR提升了3-4个点当前结果在OGB-wikikg2榜位列第一名。3、最终成绩地址https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2二、ccks2022基于知识图谱的商品同款挖掘评测1、任务描述同款商品是指商品的重要属性完全相同且客观可比的商品商品同款识别的主要目的是从海量结构化和无结构化的商品图文数据库中匹配得到同款商品是构建电商产品关系的一个重要环节。商品同款作为商品知识图谱的重要组成部分有很多应用场景如同款商品发现等。商品定义商品即item通常由多个sku构成其基础信息包括item级信息主图、标题、类目、属性及属性值以及sku级信息sku图片、sku销售属性例如Redmi K50 是一个item见图1Redmi K50银迹8GB128GB是一个sku。从消费者视角出发对于手机类目品牌型号一致的商品可以认定是同款商品。但由于商家个性化发布导致商品标准化、结构化程度差且不同类目下的商品关注的重要属性不一给细粒度同款对齐带来了困难。且考虑到电商平台商品量级大现有方法通常基于表示学习的方法基于商品的基础信息得到商品的向量表示在此基础上基于向量检索的方式得到item同款。本任务聚焦于item同款并为了简化问题我们将商品同款识别任务定义为二分类任务即给定商品对信息判断是否item同款。2、所用模型在具有多模态商品信息的场景中可以利用其他模态的信息实现更细粒度的同款商品对齐。为了解决这一问题我们提出了面向电商领域的基于交互编码与蒸馏的多模态实体对齐模型。该模型利用商品的图像和文本信息并使用遮蔽语言模型、图文对比、图文匹配等预训练手段来增强模型对于商品的表征能力。借助领域预训练、递推推理的数据增广和知识蒸馏等方法使模型效果远好于单模态对齐方案和常规表示学习建模算法。其中如上图所示我们首先基于开源的R2D2模型【360自研多模态模型】在领域相关的语料上采用不同的策略进行继续预训练分别得到领域预训练模型R2D2-S和R2D2-P。然后基于R2D2-P构建交互编码器CrossR2D2并在训练集上完成训练。最后使用训练好的CrossR2D2作为教师模型未经过训练的BiR2D2作为学生模型进行知识蒸馏。其中继续预训练是使预训练模型适应领域数据的常见手段之一我们分别采用了遮挡语言模型、图文对比(目标是拉近匹配的文本和图像的同时拉远不匹配的文本和图像)、以及图文匹配三种损失函数作为模型损失并采用单商品预训练策略和成对商品预训练策略。此外由于交互编码器效果要好于双编码器我们设计并实现了一种基于R2D2的交互编码器称为CrossR2D2以及基于R2D2的双编码器称为BiR2D2。最后考虑到交互编码器和双编码器之间存在的性能差异,通过知识蒸馏的方式将CrossR2D2中的“知识”迁移至BiR2D2即教师模型为CrossR2D2学生模型为BiR2D2。3、最终成绩在“CCKS2022 面向数字商务的知识图谱评测任务二基于知识图谱的商品同款挖掘”竞赛中复赛F1值为0.8997排名第二。地址https://tianchi.aliyun.com/competition/entrance/531956/rankingList三、2022问天引擎电商搜索算法赛1、任务描述受疫情催化影响近一年内全球电商及在线零售行业进入高速发展期。作为线上交易场景的重要购买入口搜索行为背后是强烈的购买意愿电商搜索质量的高低将直接决定最终的成交结果因此在AI时代如何通过构建智能搜索能力提升线上GMV转化成为了众多电商开发者的重要研究课题。整个任务是一个匹配问题。2、所用模型文本匹配是自然语言处理的一项基本任务。针对电商领域搜索语句的简短模糊性、标题的复杂性以及人工标注样本昂贵等问题我们提出了一种混合对比学习与课程式难负例采样的“向量化召回精排”两阶段文本匹配模型。其中在向量化召回阶段给定query模型在总的doc集合中推理出得分最高的m个doc得到向量化召回结果。在精排阶段对于向量化召回得到的m个doc进行排序得到最终推理结果。此外通过借助监督学习数据增广、领域预训练、对比学习、难负例采样等方法辅助排序。在数据增广上我们在有监督样本上训练生成模型BART在无标注样本上进行数据生成形成监督样本最终形成增广的有监督数据。在向量表示上我们对于输入文本的编码采用BERT的编码形式将输入的句子通过分词器按字划分得到序列将通过look-up表得到由字向量、文本向量、位置向量组成的向量表示为将向量通过N层Transformer得到文本语义表示向量。在召回阶段我们采用SimCSE作为向量化阶段模型参照对比学习框架和in-batch negative的负样本采样方法使用交叉熵作为损失函数。为提高模型的泛化能力本文在模型训练过程中进一步加入对抗训练。此外在向量化召回阶段模型需要在大规模语料中快速区分出差异样本对差异样本的辨识精度要求低而对于精排阶段模型需要细粒度的区分相似样本模型需要在小的集合中精准区分出最优样本。因此受课程学习思想的启发本工作将hard negative进行划分以提升模型的泛化性。具体的我们将Knn召回的结果按照相似度得分大小进行排序从不同排名段的样本抽取形成难负例。经过实验我们最终将hard negative由简单到困难划分为三个层次第一层次选取相似度得分排名第40-46的样本此类样本与query匹配度适中第二层次选取相似度得分排名第20-26的样本此类样本与query的匹配程度高于第一层次第三层次选取相似度得分排名在5-11的样本此类样本与query的匹配程度极高。在精排模型训练时首先采用第一层次的hard negative作为负样本其次采用第二层次的hard negative作为负样本最后采用第三层次的hard negative作为负样本。如此一来实现让模型从容易的样本开始学习逐渐进阶到复杂的样本使模型具有更好的泛化性能熟练到更好的局部最优解。3、最终成绩我们在2022 “阿里灵杰”问天引擎电商搜索算法赛测试集中取得了0.3890的MRR10值。地址https://tianchi.aliyun.com/competition/entrance/531946/rankingList/1四、总结自2022年以来在组员的共同努力下我团队(360人工智能研究院知识图谱算法组)陆续在知识表示、多模态知识融合、知识匹配三个方向上进行探索并参加相关比赛取得了一定的成绩。本文是对上述三个竞赛任务的一些技术总结性分享从中我们可以看到三个典型任务以及可用的技术手段当然打比赛是一种做法模型创新是另外一种做法我们可以做更多的尝试并更贴近落地去做。最后为团队做一次广告我们360人工智能研究院知识图谱团队从产品、项目交付技术深度均已取得一定成果欢迎关注我们的工作。五、关于作者老刘刘焕勇NLP开源爱好者与践行者主页https://liuhuanyong.github.io。就职于360人工智能研究院、曾就职于中国科学院软件研究所。老刘说NLP将定期发布语言资源、工程实践、技术总结等内容欢迎关注。OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。
http://www.zqtcl.cn/news/139579/

相关文章:

  • 怎么看是哪家做的网站呼市浩特网站建设
  • 如何建设淘宝客网站全网营销包括什么
  • 网站建设服务市场广州市几个区
  • 二手网站建设论文答辩校园官方网站如何制作
  • 高科技展厅效果图设计商丘 峰少 seo博客
  • 太原网站优化工具方法广州天河 网站建设
  • 西安市做网站公司有哪些秦皇岛网站制作
  • 用ps做美食网站河北网站设计制作
  • 怎么做自己网站的APIwordpress memcache
  • 昆山高端网站建设机构公司展厅装修效果图
  • 服务器怎样建设网站中国建设银行货币基金网站
  • 沈阳专业制作网站公司吗万盛集团网站建设
  • 做汽车价格的网站东莞官方网站建设
  • 方案策划网站企业做推广可以发哪些网站
  • 天河网站建设世界建筑设计公司排名
  • 电商网站制作价格和硕网站建设
  • 深圳市门户网站建设哪家好微信小程序案例源码
  • 信息产业部icp备案中心网站asp网站制作教程
  • 品牌网站建设的意义建站公司联系电话
  • 网站建设 备案什么意思哪里有做效果图的网站
  • 教你免费申请个人网站html网站建设方案
  • 网站运营方案怎么写?在线制作手机网站
  • 微信html5模板网站哪个网站有手机
  • 网站知名度网站广东省备案系统
  • 柯桥区网站建设湖南人文科技学院
  • 建设一个网站需要哪些福田企业网站推广哪个好
  • 网站外链建设的15个小技巧中国农业建设中心网站
  • 交易平台网站怎么做wordpress 置顶 函数
  • 义乌市场官方网站jsp做就业网站
  • 推荐网站在线看兄弟们企业概况简介