当前位置: 首页 > news >正文

织梦做的网站图片路径在哪wordpress百万数据库

织梦做的网站图片路径在哪,wordpress百万数据库,广州市网站网页制作公司,临淄网站建设多少钱分享嘉宾#xff1a;肖楠 京东科技 算法专家编辑整理#xff1a;付村 云融创新出品平台#xff1a;DataFunTalk导读#xff1a;今天分享京东科技近期在事理图谱构建和应用方面的研究成果#xff0c;主要分为以下五个部分#xff1a;京东科技图谱简介金融事理图谱构建因果…分享嘉宾肖楠 京东科技 算法专家编辑整理付村 云融创新出品平台DataFunTalk导读今天分享京东科技近期在事理图谱构建和应用方面的研究成果主要分为以下五个部分京东科技图谱简介金融事理图谱构建因果关系抽取技术事理对齐技术事理图谱在金融领域的应用 01京东科技图谱简介1. 京东科技知识图谱能力全景图京东科技的知识图谱能力由五个部分构成包括多源异构数据、基础技术、核心能力、图谱平台、图谱应用。其中多源异构数据包括结构化数据、半结构化数据和非结构化数据。基础技术覆盖了NLP以及知识图谱等各领域的技术。核心能力概括为信息抽取技术、文本解析技术以及图存储和图可视化技术等。图谱平台产品的应用领域覆盖了金融领域、电商领域、医疗领域支持了京东科技、京东商城、京东健康等模块的核心业务。除此之外在搜索推荐、资管科技、智能客服及采销等场景都有很好的落地。今天的分享主要聚焦在金融图谱。2. 京东科技知识图谱全景图上图为金融图谱的全景图。数据层面主要包含企业工商数据、研报、新闻和公告。研报分为上市公司研报、行业研报、期货研报和基金研报公告分为上市公司公告、发债主体公告和基金公告新闻分为行业新闻和金融新闻。从数据可信度和数据质量来看企业工商数据、研报、公告的数据比较可靠由于所在网站规范性、新闻发布时间和撰写人员等原因新闻的可信度相对较低。所以新闻数据在数据获取后录入图时我们会进行机器校验和人工校验。金融图谱实体主要包括公司、人员、产品和指标关系主要包括供应链、供应商、子公司、参股、客户、董监高、业务、指标八类关系节点共计2亿多。金融图谱构建时主要使用NER、关系抽取、实体抽取、指标抽取等几个核心模型。事理图谱共有100万多节点覆盖了45个产业链的行业知识主要应用事件抽取、事理抽取、事理对齐、论元抽取四类模型进行构建。其中事理抽取和事理对齐是本次分享的核心内容。02金融事理图谱构建1. 事理图谱简介在金融领域文本中存在大量的金融行业知识有效的获取和使用这些知识可以极大提升AI能力在金融领域的应用且具有极大的商业价值。① 事理图谱定义事理图谱是由事理节点和因果关系组成的有向图。事理节点有别于知识图谱一般是由短语或一组语义实体构成事理可以认为是对事件的抽象归纳它将事件映射为网络见上图右的演示。② 事理和事件的区别先来看个例子这是一个产品发布的事件“西部时间9月12日上午10点苹果发布Apple TV在史蒂夫.乔布斯剧院”事件抽取包括触发词的发现和事件元素的发现事件元素包括发布方、发布时间、发布地点、被发布的产品。从上述例子可以发现对于不同的事件需要用不同的事件schema来描述因为数据标注成本巨大即便已经定义了84类事件但仍然无法扩展至覆盖整个行业。我们引入了事理基于语义的schema它可以用简单的表述方式或用统一的schema来表述事理这种方式降低了事理表述的难度。③ 事理的获取流程上图中右半部分展示了事理获取的整个流程首先将文本进行结构化构建成事件网络在网络中找到核心的事件节点进行抽象归纳映射成抽象的事理节点。2. 事理图谱构建示例事理图谱的构建主要分为因果关系抽取、论元抽取、事理对齐三个部分。下面以石油产业链的为例来说明如何获取一条事理。原句由于国际上的原油市场需求下降10月原油价格大幅下滑导致石油开采、石油加工产业价格回落。① 因果关系抽取原句蕴含着一个事理它由两个因果关系组成通过因果关系抽取得到了两条因果对结果见上图表格所示。这两组因果关系中蕴含了石油产业的行业知识展示了石油上游原料价格与下游产业价格的传导关系。② 论元抽取将因果对分别按照主体、谓词、及对主体的修饰词进行论元元素抽取将上述的因果对解析为结构化信息如上图所示。③ 事理对齐将事件映射成对齐事理进一步得到石油产业链知识如上图所示。这条知识经过机器校验和人工校验录入到事理图谱中可以应用到推理、价格定价等方面。这个例子展示了知识抽取的过程是通过路径搜索进行知识推理的一种形式。拓展了图中的因果知识用路径的结构加以实现。接下来将三个步骤分别展开介绍。03因果关系抽取技术1. 因果关系抽取概述① 因果关系抽取的挑战因果关系抽取的问题和挑战主要有因果关系存在显示和隐式两种隐式关系抽取难度大。因果词不只是因果连词还有其他多种可能比如助词、介词、形容词、名次等这增加了因果识别的难度。因果对存在嵌套情况。下面举例解释以上挑战难点可参照上图右半部分隐式因果关系“俄乌战争爆发石油价格上涨。”动词为因果词“俄乌战争带动石油价格上涨。”非因果句导致误抽取这种样本进入到模型中会降低模型效果 “俄乌战争爆发石油交易仍然正常进行。”② 因果关系抽取 vs SPO抽取相同点二者都是三元组抽取任务三元组出现在句中的情况相同。不同点SPO由实体组成因果关系由短语或短句组成因果抽取分为隐式关系和显示关系而SPO抽取不做任何区分在实际应用中以SPO抽取大部分是显性。③ 因果关系抽取类型因果关系抽取大致分为三类单句单组因果单句多组因果关系且因果元素不重合单句多组因果关系且且因果元素嵌套。相关示例见上图右下部分。2. 因果关系抽取模型因果抽取模型借鉴了事件抽取模型事件抽取模型是由触发词和事件元素组成用这种方法解决了前面提到的问题与挑战。大量实验证明使用文本处理隐式关系存在许多误抽取接下来的模型建设暂时不考虑隐式关系的处理。上图右侧展示了因果抽取模型的整体框架。模型分为两个任务预测因果连接词预测因果连接词对应的原因和结果。原因和结果不是唯一的原因可以多组结果也可以多组。重点介绍模型中京东科技进行的两处优化我们设计了新的任务来提升预训练的表示。首先预测一个句子是否是因果句判断后得到的embedding作为下游任务的补充。通过这种训练方式可以对整个训练任务提升1个点至2个点。我们使用了GCN编码代替传统的CN编码等方式。之所以选择GCN编码是因为GCN对句子特征的传导和过滤有更好的效果。使用GCN编码构建图时我们尝试了多种方式比如句法遗存、TFIDF、词频等实验对比发现句法遗存的效果最好针对句法遗存产生的噪声我们在GCN编码矩阵的每一条边上设置门控机制通过门控机制判断该条边是否起作用。使用GCN编码进行事件抽取可以对整个训练任务提升5个点。总结起来通过设置了联合抽取任务解决了因果关系抽取问题主要用于显示的因果抽取。04事理对齐技术1. 论元抽取定义① 语义角色标注语义角色标注是浅层的语义分析技术以句子为单位分析句子的谓词和论元结构。语义角色框架主要有PropBank-style annotation、FrameNet-style annotation、NomBank三个其中使用最多的是PropBank-style annotation它常用的数据集是Propbank、Chinest Proposition Bank、CoNLL三个。京东科技主要使用的是Chinest Proposition Bank它分为三个主要成分Predict谓词作为整个句子的核心词Core Argument核心论元是围绕着谓词的主体、客体或间接宾语主要修饰谓词Semantic Adjuncts对谓词、核心元素的补充比如时间、地点、目的、原因等。② 论元的定义论元为语义角色标注中的标签论元抽取任务实际是语义角色标注任务我们在使用论元时参考的是CPB框架并在此基础上进行了修改。SRL将相同语义不同表达的句子转为统一表达形式在论元抽取中有重要作用。2. 论元抽取方案① 方案选择我们做事理对齐时考虑了两种方案一是用文本相似度的方法因为事理是图结构的但抽取的因果对大部分是短语经过实验发现效果并不是特别好原因在于短文本的特征比较有限。所以提出了第二种方法文本和图相结合来做映射的方法也就是将短语和事理分别展示成子图的方式进一步对节点进行如引入概念、词表等的再处理提升实体携带的信息量和表征纬度。从图的结构层面采用图谱对齐的方案把潜在的子图进行对齐。两种方法对比方案二的效果较好。把短文本相似计算的问题转换为图谱对齐任务。首先是丰富了输入特征引入了图的结构信息丰富了实体的信息运用知识库对实体进行了扩充。其次是处理对齐的方法使用图结构的对齐这相对于文本计算有明显优势。② 对齐任务上图右边三个方框中左边两个是抽取的待对齐的因果对右边是事理图谱中的一个事理。经过论元抽取处理将短语结构化为子图以左边上图为例进行解读根节点是下降下降的主体是需求需求的范围描述——国际上其他描述——原油市场下图及事理图可以用同样方法解读。接下来进行对齐和映射。上面子图的“国际上”节点是不需要的将其排除在外“下降”和“下滑”对齐“需求”和“需求”对齐“原油市场”和“原油”对齐见图中黄色虚线示意。下面子图同样排除“2008年”节点“暴跌”和“下滑”对齐通过同义词或概念词的方法进行的对齐“需求”和“需求”对齐“原油”和“原油”对齐见图中绿色虚线示意。对齐任务的核心思想是将短文本转换成图的信息。③ 论元元素介绍论元的元素与语义角色标注部分CPB相同这里不再展开。非核心语义角色原本语义角色很复杂可以处理复杂句或多句的关系经过很多实验我们选择只保留了9类关系因为在事理中这9类已经可以描述出事物的发展情况。第一类是ArgM-Loc描述物理空间元素。第二类是ArgM-Sco认知或概念的范围空间。第三类是ArgM-Time时间元素。第四类是ArgM-Tool工具元素一般由“用”整个词引出。第五类是ArgM-Mnr事件的方式、方法。第六类是ArgM-Reas缘由元素。第五类是ArgM-Purpose目的元素。第五类是ArgM-Polarity极性元素表示否定意义的词。第五类是ArgM-Tense时态元素包括过去、现在和未来时。3. 论元抽取方法论元抽取应用的是关系抽取的框架主要分为Pipeline版本和联合抽取版本两种。① Pipeline版本该版本是论元实体和语义关系抽取独立进行。优势介绍a便于针对各自任务的问题设计模型没有共享编码的限制。b减少因下游任务不一致导致的预训练模型的性能损失。c显式的将上游任务的记过作为标记用于提升下游任务的效果。通用方法介绍a实体论元发现采用Spild结构对所有的窗口进行扫描是牺牲算力提升模型精度的一种方式。b关系发现对关系进行两两全匹配并进行关系的预测。② 联合抽取版本将两个任务结合在一起使用共享编码是多任务的训练。在应用中需要根据任务难度、数据量不匹配程度等影响迭代收敛效果的内容调整多任务的执行策略。方法介绍a标注框架将关系和实体设计成统一的标注框架它的局限是单个词只能打一个标签对于嵌套问题比较局限。b联合编码将句子长度*句子长度作为一个向量把所有情况进行建模建模中会将所有的关系和实体在句子特征中进行表征。在基本保证模型效果的情况下降低运算强度。总结起来论元抽取时需要根据句子的情况选择不同的方案。4. 事理对齐考虑到数据计算量大小将事理对齐分三步进行。首先基于规则进行初步召回一般是数据量大于1050左右时应用主要使用规则、词匹配进行召回。第二步基于文本的粗排主要使用文本相似度计算的方法进行再召回目标是将候选集降低到10个以内。最后使用图谱对齐的精排模型对5个元素以内的每个节点进行计算得到相似度进一步进行排序。5. 事理精排模型事理精排模型主要使用了因果句和事理子图中句子的文本信息以及子图中每个节点临近节点的信息。将图中的每个节点用Bert进行编码形成关于一度节点的关系矩阵和文本特征向量。通过操作算子将关系矩阵中可能有用的特征抽取出来经过MLP网络计算损失。该模型在公司实体链接中应用过效果也非常不错。6. 事理对齐总结事理对齐模型的核心思想是引入图结构用论元的方法将短文本任务转为图结构通过图的方式进行事理对齐。05事理图谱在金融领域的应用1. 应用概述① 金融领域数据的特点渠道来源多新闻、财报、研报、信息庞杂。企业、人员、产品等关系负责、数据量大。具有一定专业性数据标注成本高。② 事理图谱的价值通过路径搜索丰富推理知识可以为舆情系统提供多维度的连接关系。通过产业知识的构建可以为智能投研系统自动发现投资逻辑。通过事理链接和因果分析可以为金融预测模型提供丰富的潜在特征场景例如价格预测等。2. 事理图谱在智慧研报的应用应用事理图谱对一份研报的资讯内容进行正负面的抽取、事件的抽取、事理方面会做延伸文章的推导从而进行一度或二度关系文章的推荐。3. 事理图谱在行业龙头推荐的应用通过产业链图谱和事理图谱的方式根据每个节点的出度、入度对公司的权重进行计算。因为政策的传导对产业链龙头影响很大事理图谱在其中的作用便是增加行业在计算中的权重信息提高龙头推荐的精度。06总结与展望1. 总结事理对齐同样可运用到短文本理解场景这是因为事理对齐主要将短文本信息用图的方式进行对齐在图中的每个节点上引入了更多信息。事理图谱增强知识图谱的认知能力存储事物规律事理图谱提升新闻舆情场景、定价场景、智能投研场景的智能程度2. 展望探索隐式因果关系的处理本文介绍的因果关系抽取和事理对齐技术主要是针对显式因果关系的处理关于隐式关系的探索不足也造成了一定程度的知识缺失。事理知识大规模自动发现从量级看目前的数据量100万左右节点有两亿多随着数据的积累和收集数据量会更大。增加事理表征难度目前的事理大部分以论元表示在实际中尤其投资决策方面有时精准度会稍显不足。比如有些因果关系的成立是有因果前提的现在大部分是对核心元素的谓词关系建模有些信息比如条件等未引入进来造成表征不够丰富。07QAQ带条件的事理如何表达A首先可以在论元角色上进行更多建模但是条件不是简单的一个词或短语它还可能是更复杂的一种表达有时条件本身就构成了一个图造成构建时的复杂度大大提升不能通过简单再引入一套条件的schema解决。比如白条、金条还款时都是在固定的条件下发生的这时会发现条件相对复杂没办法简单具化为一个schema。建议具体处理时先控制范围可以先从简单条件也是分为几个层次的的入手比如时间、地域等条件的表达其他复杂结构的条件处理优先级排后。Q论元抽取时的人工校验工作大概占多大比重A需要根据具体的业务场景决定需要投入的人力比如舆情场景人工校验采用抽查的方式即可在数据或数据运算场景需要全量校验。Q金融事理图谱方案是否可以迁移到其他领域比如娱乐等应用如果可以有哪些注意事项A事理图谱的方案是通用的它的实现只跟数据源有关论元、抽取和领域无关在各领域具有通用性。 分享嘉宾OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。
http://www.zqtcl.cn/news/600113/

相关文章:

  • 视频制作网站都有哪些网站优化的公司
  • 网站开发运营推广叫什么苏州seo关键词优化推广
  • 龙泉驿区建设局网站引流推广平台软件
  • 做盗版网站韩国服装网站建设
  • 网站策划书籍推荐高端网站设计制作的
  • 优秀电商设计网站有哪些微博网站可以做兼职吗
  • 网站建设 验证码电子商务网站建设流程图
  • 做内贸什么网站资源比较多岳阳网上房地产
  • 去国外网站开发客户中的contact us 没有邮箱失败营销案例100例
  • 网站怎么做图片动态图片大全靖江 建设局网站
  • 汉子由来 外国人做的网站wordpress微信小程序部署
  • 兰州网站建设最新招聘信息江苏网站建设简介模板
  • 最具口碑的企业网站建设企业做网站的流程
  • wordpress多语言企业网站网页制作工具按其制作方式有几种类型
  • 2019年做网站还有机会吗wordpress 虚拟订阅插件
  • 网站都有后台吗怀柔网站建设
  • phpcms 图片网站免费商城网站建设
  • 网站虚拟主机租用中铁建设门户网登录初始密码
  • 网站哪个公司做的好网站建设与管理指什么软件
  • 提升学历要多少钱seo关键字优化技巧
  • 代理会计公司网站模版哪家培训机构学校好
  • 开江建设局网站怎么做让自己的网站
  • 个人建设网站要钱吗专门用来制作网页的软件是什么
  • 关键词挖掘站网seo点击软件手机
  • 建设局考试通知文件网站推广普通话的手抄报
  • 移动端网站排名海淀区seo引擎优化多少钱
  • 福田网站建设联系电话免费开商城网站吗
  • 网站备案本人承诺备案 网站建设方案书
  • 图片网站模板wordpress首页模板文件
  • 做外国网站怎么买空间网站策划方案ppt