网站建设文件夹布局,西安注册公司多少钱,餐饮 网站建设,监测网站空白栏目一、议题
昨日#xff0c;阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个简短的讨论#xff0c;我觉得很有趣#xff0c;发出来与大家一同思考。 唐#xff1a;唐呈光#xff0c;阿里巴巴算法专家小蜜对…一、议题
昨日阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个简短的讨论我觉得很有趣发出来与大家一同思考。 唐唐呈光阿里巴巴算法专家小蜜对话开发平台对话引擎负责人 刘刘焕勇中国科学院软件研究所工程师、数据地平线算法总监
二、 正文
唐焕勇有个问题想和你探讨一下你觉得行业知识图谱的schema的构建对于业务人员是不是有困难这其中的难点或者耗时点到底在哪里
刘唐老师简单说两点自己的拙见。
刘1、是的尤其是刚入行不久的业务小白构造一个标准的知识本体都很难。业务人员需要需要了解什么是主体、客体、复杂的怎么拆分什么是属性属性关系和实体关系怎么去区分等等这个既需要了解细节的业务也需要将业务抽离、抽象这个对于业务人员来讲是很难的。我觉得知识架构师知识产品经理是未来知识图谱的一个十分必要的工种。
刘2、难点的话包括1一个是对业务的梳理或者说理解既需要有跳出来的宏观把控只有跳出来才能尽可能地建模场景元素也需要对细节的把控针对不同的需求如问答、检索等制定不同的本体这个要求比较高2另外一个就是动态的schema的问题schema的版本都会一直变化根据业务变化也会根据自己对业务的认识而变化如何尽可能地减少这种变化也是一个难点。
唐分析得很到位[强]你觉得从技术角度我们能从哪方面发力降低这个构建难度呢
刘是两个域
刘kg技术就是基于schema而展开的是schema的后续操作。如果要做的话那做shcema的自动生成辅助schema的编辑
唐你觉得schema自动生成这个技术的难点在哪里我们自己搞了半年效果也不太好啊
刘我反问一个问题为什么事件抽取搞来搞去都是ace那8大类23小类
刘schema不存在一个标准的benchmark去评测所以说好与不好也很难讲现有的技术做不了太细的东西可以笼统地搞一些出来但业务不一定接受。
刘换句话说如果存在一种技术能够自己把某个行业知识体系搭出来那么这个技术本身就相当于这个行业的专家水准这是个悖论。
唐因为事件是动态的事件的类别发展太快了没办法实时更新覆盖这也导致事件不容易大范围定义 也不容易标注所以大家都在常用公开数据 在都认可的事件类别上做模型方法和研究。 唐这是我的理解。
刘这是一方面一是因为动态类别发展太快另一个是事件类型自身都是变化的而且具有相对的主观性所以很难有统一的标准现在虽然有很多基于抽象泛化的方法去生成schema但效果很差。与此相类似kg的schema也是一样的很难统一、很难细化、很难全量。
唐那这个未来怎么才能做到规模化应用呢
刘不过选择一个封闭的领域找一个相对简单的场景做下理论研究还是可以的。
刘这个未来会很未来【我比较悲观】规模化应用的话还是上面说的选择一个封闭的领域找一个相对简单的场景去做小规模化比如小蜜的问答结构清晰的问答场景。
唐明白
唐我的感觉现在的benchmark可以总结为三种一是业务人员从应用出发的评价标准二是研究人员从方法模型上的评价标准三是实际使用情况反应的评价标准三种标准都有道理但是是三个角度gap还挺大
刘[强]到位
三、总结
知识图谱schema这个东西对于一个从无到有进行知识图谱构建的人来说是个十分头疼的事情无论是业务人员还是技术人员都存在诸多困惑schema是对领域或者行业知识的一个高度抽象化建模是个十分耗时的过程。对话中抛出几个观点知识架构师知识产品经理是未来知识图谱 的一个十分必要的工种技术人员用技术的方式去学习生成图谱的schema难度比较大并且也不一定会为业务人员买账。所以schema这个东西道路且长。
关于作者
刘焕勇 Liu Huanyong2017年硕士毕业目前就职于中国科学院软件研究所兼任数据地平线科技算法总监。专注金融、情报两大领域从事事件抽取、事件演化、情感分析、事理知识图谱、常识推理、语言资源构建与应用等研发工作。主持研发自然语言处理技术开放平台数地工场、大规模实时事理知识学习系统学迹、全行业因果链查询与溯源项目寻链系统并在智能金融、智能情报落地中负责实施了多个项目。致力于面向中文处理的基础知识库建设与理论技术开源共享目前累计对外开放自然语言处理实践项目六十余项其中知识图谱和事理图谱项目十六项。在openkg开放知识图谱联盟中开放工业应用知识库七类主笔数地工场技术类系列文章二十余篇。
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作可联系我 1、我的自然语言处理开源项目https://liuhuanyong.github.io 2、我的csdn技术博客https://blog.csdn.net/lhy2014 3、我的联系方式: 刘焕勇中国科学院软件研究所lhy_in_blcu126.com. 4、我的共享知识库项目刘焕勇事理类知识库数据集http://www.openkg.cn/organization/datahorizon. 5、我的工业项目刘焕勇以事理为核心的金融情报探索https://datahorizon.cn.