做网站怎样盈利,二维码生成器联图,南通做网站软件,平台合同模板随着知识图谱在人工智能各个领域的广泛使用#xff0c;知识图谱受到越来越多AI研究人员的关注和学习#xff0c;已经成为人工智能迈向认知系统的关键技术之一。之前#xff0c;斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的CS224n成为了全球非常多AI研究人员的入…随着知识图谱在人工智能各个领域的广泛使用知识图谱受到越来越多AI研究人员的关注和学习已经成为人工智能迈向认知系统的关键技术之一。之前斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的CS224n成为了全球非常多AI研究人员的入门经典学习课程。因此斯坦福大学于今年3月开设了一门专门面向知识图谱的系列课程CS520官网课程页
https://web.stanford.edu/class/cs520/web.stanford.edu 这门课程系统讲解了知识图谱的各项技术及应用。前期我们已经对这门课程进行了介绍可以参考链接
对知识图谱的告白斯坦福大学CS520课程介绍 从现在开始让我们一起来学习这门知识图谱系列课程。B站上已经同步了课程视频并带有中英文字幕只是估计是机器自动翻译效果大家看看就知道了。第一讲视频的B站地址
【CS520】斯坦福大学2020春季知识图谱课程含中英字幕自动生成_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com
本期是CS520的第一讲主要是简单介绍课程的整体内容和重点讲解知识图谱的一些基本概念所有内容笔者根据视频学习内容撰写如有理解有误之处还请提出批评指正。 课程的组织者Vinay K. Chaudhri教授首先介绍了知识图谱的几个典型应用语义搜索、知识问答和数据集成。前两个是知识图谱最常见的应用但是知识图谱用于“数据集成”数据集成百度百科
数据集成_百度百科
对于数据集成百分点科技有一项《基于动态知识图谱的大规模数据集成技术》的研究工作如有感兴趣可以阅读技术文档
一文带你读懂基于动态知识图谱的大规模数据集成技术
同时在很多自然语言处理、计算机视觉和机器学习的相关研究中也都提到了知识图谱并且越来越普遍。这些领域将知识图谱作为数据存储方式并通过相应的算法使用和学习知识图谱。
课程大纲
这个课程系列需要学习的内容从大的方面包括
首先问一些简单而基础的问题例如是什么是知识图谱。我们如何构建一个知识图谱。如何使用知识图谱来进行推理。如何与现代AI算法的结合并且有哪些高价值的用例。在课程尾声将会讨论知识图谱还存在哪些开放研究挑战问题。
课程设计
这门课程非常有意思的一点是每节课都会邀请三名学者形成小组对于知识图谱的某个方面每名学者都会带来各自不同的观点。总体上对于知识图谱将会从来自传统知识表示和数据库的观点包括在线数据管理系统以及机器学习和自然语言处理。包括30分钟的展示和20分钟的讨论。
好了接下来就是正式的课程内容了这一讲的主题是什么是知识图谱并且为什么知识图谱是有用的
第一位教授首先介绍了Wikidata这是在2012年启动的一个开放的知识图谱任何人都可以编辑支持Wikipedia提供了结构化的链接数据包含世界上很多有趣的话题。 具体的一个在Wikidata中的例子安大略省这个实体和安大略省的一个城市温特图尔这个实体之间有一条边链接这两个实体这条边有一个标签为孪生行政机构当然实体和连接关系的标签可以用数字字母组成的id或者包括中文或德语等任何自己喜欢的方式来表示。在Wikidata中有关于所有城市之间关联关系的图谱表示。 当考虑各种实体和关系类别后会得到一个更全面丰富的知识图谱 整个知识图谱包括8000多万节点其中包括基因蛋白质病毒城市中的人的各种事物等等。同时知识图谱中的边也就是关系数量已经突破了10亿。 除了Wikidata美国国会图书馆也出版了大型RDF知识图谱(上图左)并且这个知识图谱的数据已经和Wikidata的数据进行了融合前者的实体标识符是以n开头的而后者的实体标识符是以q开头的。因此将不同知识图谱进行融合就能得到一个大型知识图谱。
有了这么多的三元组我们能做什么呢 上图中这样的模式可以匹配出所有出生在温特图尔的人继续扩展可以得出更多模式。使用构建的图数据库和匹配模式就可以得到我们想要的查询结果。 总结
知识图谱很容易融合数据库无法直接拼接在一起但是知识图谱的融合就很容易只要知道哪些节点具有相互关系就可以就行融合。知识图谱支持推理当你知道两个城市是姊妹城市也就可以知道这两个是孪生机构。从开放源上取得大量的知识图谱并将其整合建立自己的知识图谱。可以采用图模式作为查询语言比如SPARQL。和机器学习相比知识图谱具有很强的可解释性可以给出每个节点具体表示什么因此更易于编辑和更改等。
第二位讲者主要从一款知识图谱建模软件出发从两个角度介绍了知识图谱基于文档和文本的知识图谱和基于事件的知识图谱由于没有太多概念和理论性的内容如果感兴趣可以去看视频3343开始。
重点来了
相比于前两位讲者第三位讲者的课程内容感觉更像传统意义上的知识图谱概念介绍和讲解因此我们对这一部分进行重点学习。 可以看到将会从知识图谱的定义知识图谱的表示例如现在比较流行的知识图谱嵌入向量表示以及从逻辑、数据库、计算机视觉和自然语言处理等多个角度理解知识图谱和应用。 定义知识图谱可以有多种形式
正式的数学形式这个是在知识图谱相关的学术论文中最常见的对知识图谱的定义给定实体集合E和关系集合R知识图谱就是一个包含很多三元组的有向多关系图。定义模式针对不同的主题的领域定义一个模式与任意实体相互关联感觉这种更像是所谓的本体建模。包括模式和实例这种从字面理解上应该就是包括本体建模和实例知识图谱。任意RDF/LPG/RDF* 都是一个知识图谱查阅资料了解到这里RDF和LPG都是比较主流的图数据模型LPG是一种属性图而且我们熟知的Neo4j提出了为 LPG 图数据库创建标准查询语言的建议来源
观点|抛开炒作看知识图谱为什么现在才爆发_开放知识图谱-CSDN博客_知识图谱为什么在现在
。一般认为LPG是工业界应用更广泛的模型RDF在学术界见的更多学术研究中使用的知识图谱一般都是以RDF标准构建的包含三元组的知识图谱。 知识图谱可以理解为结构化的世界模型每一个领域例如歌唱领域有很多实体和关系来描述在图中生命科学的数据集是棕色的政府数据集是灰色的图中每一个小泡都是一个小的知识图谱。因此如何编码这些世界模型和实体与关系其实也就是如何进行知识图谱的表示。这里给出了两个极性符号表示和向量表示。 当使用符号来表示知识图谱时
我们将实体和关系看成是一些字符串数组表示将我们的所有对象都放在一个高维空间中符号表示经常在符号推理系统中使用也大量用于数据库系统中。向量表示经常用在一些CV和NLP的任务中。此外知识图谱还有一些特点比如开放世界假设和封闭世界假设开放世界假设意味着在知识图谱中显式地给出的事实默认可能正确的而时间演变意味着但是随着时间的演变这些事实可能会被改变例如某个国家的总统随着时间会发生改变。 这是一个在符号表示的角度给出的关于小罗伯特唐尼I am Iron Man的三元组的例子包括8个实体和6个关系。我们能够编码小罗伯特唐尼在哪里出生住在哪以及他的哪些电影这里关系表示中用的dbp是知识出版社的名称。 用向量表示的知识图谱
就是实体和关系都被从符号表示的空间嵌入到低维的空间中例如实体保存在特定大小的张量中。因此我们就可以用求和等函数来对知识图谱中的实体进行计算在语义上相似的实体嵌入表示更加靠近比如和小罗伯特唐尼有关的实体比如复联和钢铁侠数值表示也比较接近这是知识图谱嵌入算法最大的优势。 接下来我们从不同角度理解知识图谱。
首先是从逻辑的角度也是数据库中用的经典方法
其中关系都是一些二元谓词。逻辑描述通常由三部分组成TBox、ABox和RBox。 第一部分是TBox包含一些模式和本体本体定义了一些概念之间的关系。例如成功的作家是至少有一项工作杰出的人物以及畅销书。第二部分是ABox可以称其为事实实例例如SuccessfulAuthorStanLee表示斯坦李是一位成功的作家。第三部分是RBox表示谓词之间的层次结构定义属性和子属性。 从数据库的角度理解知识图谱
对于不同数据源建立统一的视图采用语义数据集成机制。将XML格式或CSV格式的数据转换为知识图谱实体是表中的单元格关系是表头。 从计算机视觉中的知识图谱
可以建立一个由图片中识别出的对象构成的知识图谱目前场景图生成在很多有关视觉推理的任务得到了广泛利用包括image captioningVQAVisual Dialogue等。在具有一定关系的图中例如人骑马而马在山前面需要从图片中推理出这些关系并且目前有很多这样关系数据集。 自然语言处理中的知识图谱
如何从文本中构建知识图谱这就需要一些传统的NLP的技术来解析我们的句子。对于一个句子我们先知道哪些是命名实体比如图中左侧给出的例子爱因斯坦是德国出生那爱因斯坦和德国应该存在一定的隐性关系同时能够知道相对论是理论物理学的一部分。完成这一任务需要两个重要技术也就是需要实现更好的命名实体识别和关系链接。 在不同的问题中相同名称的实体可能具有不同的类别标签例如Apple可以是水果Apple也可以是具有Apple这个音乐专辑的公司Apple也可以是硬件生产商。知识图谱可以是命名实体识别的附加信息比如在问题Who is the CEO of Apple?中这个Apple肯定不会是苹果树的果实也不是音乐专辑宁愿识别成硬件生产商。 关系链接
上图中四个问题中的所有关系都指向同一个谓词。知识图谱Wikidata为我们提供了这些关系的list同义词关系的层级结构和关系的约束。 问答系统中的知识图谱
当有知识图谱作为背景数据时就可以回答自然语言问题。针对图中的例子小罗布特唐尼出演了多少部漫威电影就可以用SPARQL查询来得到问题的答案。当然首先得将自然语言问题转换为查询语句得到小罗伯特唐尼出演的所有电影并计算这个电影集合中的总数。 语言模型中的知识图谱
很多人都在使用语言预训练模型来完成下游任务。传统的语言模型只接受大型语料库的文本训练。对预训练模型就行微调在很多任务上就能得到很好的效果。最新的趋势是在预训练语言模型中加入知识图谱。例如上图中知识图谱提供了小罗布特唐尼的确切的事实可以直接得到和小罗布特唐尼有关的例如托尼斯塔克等实体信息而不是像是从Wikipedia等非结构化文本中遍历整个Wikipedia。讲者表示这是一个很有发展前景的领域明年会很很多论文涌现。 总结
我们从图结构的世界模型来认识什么是知识图谱实体和关系能够以不同的逻辑模式进行组织这个应该是和数据的领域相关。符号表示的知识图谱在很多领域都很有用包括人文和社会学科例如即使一个实体有几百种语言的标签我们都可以用一个实体来表示这是很酷的。此外知识图谱带给机器学习和其他应用更多的可扩展性。 往期精选
知识图谱最新权威综述论文解读关系抽取
知识图谱最新权威综述论文解读实体发现
知识图谱最新权威综述论文解读知识图谱补全部分
对知识图谱的告白斯坦福大学CS520课程介绍
知识图谱最新权威综述论文解读知识表示学习部分
手把手教你搭建一个中式菜谱知识图谱可视化系统 后续我们还会更新CS520接下来的课程的学习笔记。
如果对文章感兴趣欢迎关注知乎专栏“人工智能遇上知识图谱“也欢迎关注同名微信公众号“人工智能遇上知识图谱”让我们一起学习并交流讨论人工智能与知识图谱技术。