成都住房和城乡建设局 网站首页,湖南网页制作公司,电网站建设用地赔偿,wordpress网站首页过去几个月#xff0c;深陷所谓“事理图谱”当中#xff0c;苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今#xff0c;磕磕碰碰#xff0c;做了很多技术上的尝试#xff0c;也不乏在应用事理图谱上尝试了多种做法#xff0c;也不乏写了几篇关于事理图谱的文章…过去几个月深陷所谓“事理图谱”当中苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今磕磕碰碰做了很多技术上的尝试也不乏在应用事理图谱上尝试了多种做法也不乏写了几篇关于事理图谱的文章实际有未想明白之处。现在写个阶段性的总结以对过去在“事理图谱”中的工作进行一种反思工程中的事理图谱要比学术报告PPT中的情况复杂的多展示的图要乱的多性能的数字少得多。。。。。
一、事理图谱是怎么来的
“事理图谱”这个词是国内哈工大刘挺老师首次提出与此同时较该团队之前有类似的工作如中科院软件所、数据地平线公司的工作也叫事理图谱。目前见学术文章的以刘挺老师的团队为例。英文版本出现过EEG(Event Eventionary Graph)或后面的(Abstract Event Graph)或后面的ELG(Event Logical Graph)定义上而言为“事件演化的规律和模式”。
二、抽象事理图谱VS知识图谱
上面所说的事理图谱实际上是“抽象事理图谱”构成要素是抽象事件以及事件之间的关系实际上并不是什么新事物。之前自己整理过一个关于事理图谱与知识图谱的对比图现在看着这种对比实际是有问题的 1、 可比性。 事理图谱本身并没有跳出知识图谱的范畴两者不是平级关系没有可比性真的要比那么应该是实体知识图谱和抽象事理图谱。 2、静态与动态。 之前的说法是知识图谱中存储的是实体是静态知识事理图谱中存储的是动态知识。这种说法是有问题的静态和动态如何去区分名词性实体就是静态的动作性事件就是动态的还是其中一个事件与另外一种事件之间存在着一种演化关系这种演化性就动态了 3、新一代的问题。 我在2018年12月份写的一篇文章中介绍性地说知事理图谱是下一代知识图谱这种说法到现在我实在是比较难以认同(软文需要)因为我到目前为止还找不到这个“下一代”的证据。事理图谱并没有解决知识图谱的任何问题存储方式提取方法等等没有发生根本性的改变。所以不存在什么下一代的问题事理图谱只是一种知识图谱变体罢了旧瓶换新水本质上并没有改变。
三、抽象事理图谱是纯学术需求
对于事理是不是纯学术需求这个论断困扰我很久我越来越倾向于说YES。主要原因如下 1、 抽象事件界定模糊。 什么是事件什么是抽象事件怎样才算抽象抽象事件怎么去显示它这一系列问题到目前并没有论述清楚。此外抽象的层级又如何去界定这些问题都没有解释清楚。 2、无法管理、建模能力差。 正是由于对这种抽象性的界定不清楚所以无法对整个现实社会的事件类型进行建模这里所说的建模能力是指具有可枚举的层级体系的事件认知但这个显然没有没有体系的概念即便可以引入上下位那也是相当噪声的上下位局部有效的上下位。没有明确的事件体系和事件类型整个事理图谱中的数据犹如一盘散沙、形式混乱这严重导致了事理图谱在管理、可用上的障碍。 3、事件的识别模糊。 抽象的事件怎么去识别边界整个事件的抽象问题都没有定义好这使得抽取的过程沦为了一种思路怎么抽都行。例如“我吃了饭然后去了学校”识别的事件是“吃了饭”还是“我吃了饭”“去了学校”还是“去学校”。这种识别出来的抽象事件其实只是一个事件片段而已就算抽取出来了后续的一些再抽象等之类的算法也只会造成误差传播没法用。 4、事理图谱单事件对概率的无效性。 这里的无效性指的是事理图谱在实际的应用过程中这种概率的无效性对于一个Ai会出来很多个Bj针对每一个AiBj都会有条边出来。虽然可以利用统计手段对事件的条件概率进行估计或者放到图网络中随机游走给出一个实际的数值但究其根本取决于曝光度那就是编辑们的曝光量而一旦曝光少但很有可能这种统计方式是统计不到的。另外每个AiBj发生的变量绝非单变量相反多变量多的我们难以想象曝光量仅仅只是其中之一。 5、事理图谱单事件链条的无效性。 另外一个方面是多度的误导性。一旦从Ai出来不断往后延伸会得到一系列的Bj,Ck,Dm…等等越往后整个链条的错误率其实越大原因是1抽象事件本身的问题事件的抽象问题把握不好A到B还说的是猪肉问题B到C已经说到感冒问题这类问题其实特别常见本质问题是这种事件的上下文信息即语境信息太少传递下来语境变化太差整个传到逻辑就是错的。2错误的传播。每条因果关系边都是失真的让他不断地往后走失真的会越来越厉害。3整个传播逻辑的取舍难度大。假设前2个问题都已经解决从一个起始事件到一个终止事件可以有很多种路径但哪条路径的可能性最大在实现上是很大的问题。 6、对高质量海量语料的高度依赖 对语料的高度依赖性是所谓抽象事理图谱构建的最大问题之一。这种依赖性体现在“质”和“量”两个方面上这里的“质”是对语料的质量来看尤其体现在对事理逻辑的表达因为有的事理不会很直白的表现出来如政治领域中的文本越偏向于对公正纯事实的报道就越不可能有事理逻辑的存在抽象事理是对逻辑的总结偏向于一种观点。“量”的表达是另一个决定因素如果数据量很少那么即便“质”保证了整个数量很少也缺乏了实际意义。
四、事理图谱能用的先决条件
1、 完善的事件体系作为支撑与灵活可用的事件管理机制 以因果事理图谱构建的方式来看属于一种围绕因果触发词出发的一种因果关联挖掘而一直没有解决事件的这种抽象性问题所以后续有事件融合也称事件共指关系识别、事件层次抽象的任务。这个任务的最终目标应该是建成一个可用的全局的事件类型体系采用的是一种自下而上的方式加以构建难度非常之大。即提出了一个现实问题是否能够基于现有的大规模的基础数据自动聚类和搭建起整个事件类型体系。 没有事件体系的事理图谱是一团散沙有事件体系但缺乏事件管理机制的事理图谱则无法应用。这种管理机制体现在对事理知识库的动态更新、多类型数据的管理上。 2、 高精准且模块化的事理组件 事理图谱中的事件体系问题是应该是决定事理图谱可用性的根本条件首先提供高精准的事件类型体系构建方法是相当重要的如何借助外部知识库辅助体系的构建如何对冗余的事件体系进行剪枝如何解决融合和共指问题是决定体系的必要手段。此外务必需要确定事理图谱中的事件定义问题即3.1的问题。此外语义外部知识库这里的语义外部知识库包括各种如同义词词林、hownet, conceptnet等。 3、 必要的领域专家接入 通用的事理图谱只能是死路一条。抽象事理图谱对事件的表示打破了领域与领域之间的墙使得事理逻辑在不同的领域中随意穿行。领域专家接入事件的领域分类、事件关系的领域分类都需要花费大量的力气去做。
五、总结
事理图谱是一种纯学术需求、无法落地、漏洞百出的新技术或新概念目前的经验告诉我如果不解决以上几个问题刻意回避事理图谱的一些本质问题一味地扯概念写技术展望帖、刷模型帖不考虑实际应用需求那么只能是纸上谈兵。毕竟现在这样的氛围太浓了。回到开始事件体系事件管理机制领域事理人机协同真正把这个踏踏实实地做好才能真正应用下去我们团队将致力于这方面的工作。
如有自然语言处理、[知识图谱、事理图谱]、社会计算、语言资源建设等问题或合作如果对事件知识库有兴趣的落地或者研究可联系我 1、我的github项目介绍https://liuhuanyong.github.io 2、我的csdn博客https://blog.csdn.net/lhy2014 3、about me:刘焕勇中国科学院软件研究所lhy_in_blcu126.com 4、懂预言者得天下得语言者分天下得知识逻辑者游得天下。