图案设计网站有哪些,私人网站建设,建筑人才网招聘网官网,企业建筑网站有哪些类型有哪些ChineseNLPcorpus
An collection of Chinese nlp corpus including basic Chinese syntactic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合#xff0c;包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己…ChineseNLPcorpus
An collection of Chinese nlp corpus including basic Chinese syntactic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语言资源的感想以及目前自己进行语言资源构建的现状。 项目地址https://github.com/liuhuanyong/ChineseNLPCorpus
介绍 语言资源本身是一个宽泛的概念即语言资源语言指的是资源的限定域资源资源是资料的来源或者汇总加在一起也就形成了这样一种界定任何语言单位形成的集合都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分一方面语言资源是相关语言处理任务的支撑为语言处理任务提供先验知识进行辅助另一方面语言处理任务也为语言资源提出了需求并能够对语言资源的搭建、扩充起到技术性的支持作用。因此随着自然语言处理技术的不断发展自然语言处理需求在各个领域的不断扩张、应用相关语言资源的构建占据了越来越为重要的地位。作者硕士期间所在的研究机构为国家语言资源监测与研究平面媒体中心深受导师所传授的语言资源观熏陶并在实际的学习、工作过程中动手实践形成了自己的一些浅薄的语言资源认识现在写出来供大家一起讨论主要介绍一些自己对语言资源的搜索搭建过程中的一些心得以及自己目前在语言资源建设上的一些工作。
语言资源的分类 介绍中说到任何语言单位的集合都可以称为语言资源比如我有一个个人的口头禅集合这个就可以称为一个语言资源库在你实际生活中进行言语活动时你其实就在使用这个语言资源库。再比如说一个班级中的学生名单其实也可以当作是一种语言资源这个语言资源在进行班级学生点名、考核的时候也大有帮助。当然此处所讨论的语言资源是从自然语言处理应用的角度上出发的。总的来说我把它归为以下两种类型 1、领域语料库 领域语料库是从语料的这个角度来讲的这里的语料界定成文本级别以自然语句为基础级别形成的文本集合即可以是句子、段落、篇章等。领域语料库可以根据不同的划分规则而形成不同的语料类别 1根据所属领域可以进一步细化成不同领域的语料库。包括金融领域语料、医药领域语料、教育领域语料、文学领域语料等等。 2根据所属目的可以进一步细化为评测语料为自然语言处理技术pk而人工构造的一些评测语料如ACE,MUC等国际评测中所出现的如semeval2014,snli等工具语料指供自然语言处理技术提供资源支撑的语料 3根据语料加工程度的不同可进一步分为熟语料指在自然语言单位上添加人工的标签标注如经过分词、词性标注、命名实体识别、依存句法标注形成的语料生语料指直接收集而未经加工形成的语言资源集如常见的微博语料新闻语料等 4根据语料语种的不同可进一步分为单语语料和多语语料多语语料指的是平行语料常见于机器翻译任务中的双语对齐语料汉-阿平行语料库汉-英平行语料库等。 5根据语料规模的不同可以进一步分为小型语料库中型语料库大型语料库。至于小型、中型、大型的界定可根据实际领域语料的规模而动态调整 2、领域词库 领域词库指以句级以下语言单位形成的语言资源库这个层级的语言单位可以是笔画、偏旁部首、字、词、短语等。同样的领域词库也可以进一步细分。 1领域特征词库。这里所说的领域特征词库指的是与领域强相关具有领域区别能力形成的词语集合如体育领域中常见的“篮球”、“足球”等词文学领域常见的“令狐冲”、“鲁迅”等词又如敏感词库等这些词常常可作为分类特征而存在。 2语法语义词库。语义词库的侧重点在与语言的语法层面和语义层面 a语法词库北大的语法信息词典北大的实体概念词典、Hownet语义词典这三类词典这几个语法词库在对词的语法功能上都做了不同的工作对词的内部结构信息进行了详细的标注如北大的语法信息词典以词类为划分标准讲汉语的常用词进行了划分并对词性、搭配前接成分和后接成分进行了详细的标注Hownet语义词典从义项的角度对词的义元进行了分解和注释。 b语义词库这类语义词侧重点不在词语的内部语法结构而在词语的整体语义上。这类词库常见的词库有哈工大发布的同义词词林扩展版这个词库将同义词按照语义的相近程度进行了不同层次的聚类可以作为同义词扩展提供帮助。另一个是情感分析任务中常用的情感词典这类词典主要公开的词典包括大连理工大学信息检索实验室公开的情感本体词库、hownet、香港中文大学、台湾清华大学公开的情感词库具体包括情感词库、否定词库、强度词库等。另外工业界有boson公开的微博情感词库词的规模比较大但标注信息不是很精准。还有的则是中文的反义词库等这个可以参考我的github项目里面对这些词库也有一些涉及。
语言资源的问题 语言资源的搭建指的是语言资源的整个搭建过程。其实是要解决四个问题一个是语言资源的收集问题二是语言资源的融合标准化问题三是语言资源的动态更新问题四是语言资源的共享与联盟问题。下面就这四点展开阐述 1、语言资源收集的问题。语言资源搜索过程中有三步走策略在这个步骤完成之后会得到一系列的词库。这些词库可能初期不会特别完善往往还需要人工使用启发式规则进行人工去噪的工作。 2语言资源的融合标准化问题。通过不同方式收集起来的语言资源往往会存在一个格式不对称的问题这有点像知识图谱中的知识融合问题。因此为了解决这个问题我们通常需要制定一个标准化的语言资源格式例如在构建情感词表的过程当中有的情感词表没有强度标记有的强度值范围不一样有的情感词表的标记不一这个时候往往需要标准化给定一个标准化的样式再将不同来源的情感词按照这个标记做相应的调整。我在实际的工作过程中常常把这种问题类别成知识图谱构建过程中的schema搭建问题信息抽取过程中的slot-definition问题。先把规范和标准搭好再去统一标准化。 3语言资源的动态更新问题。知识和信息的价值在很大程度上都在于它的一种实时性语言资源作为一种常识性知识库能够保证自身的一种与时俱进将能够最大限度地发挥自身的价值。而从实践的角度上来说语言资源的动态更新可以靠人工去维持去动态及时更新也可以建立一种动态监测和更新机制让机器自动地去更新。这类其实可以参考知识图谱更新的相关工作。 4语言资源的共享与联盟问题。语言资源是否共享其实是一个与业务敏感以及开源意识想结合的一种决策有的资源因为某种业务敏感或者开源意识不够open而无法共享当然还有其他因素成分在不过语言资源最好是需要共享的这样能够最大力度的发挥语言资源在各个领域的应用。语言资源的联盟问题更像是对开源语言资源的一种链接与互联。这类问题是对当前的资源零散、碎片化问题的一个思考前面也说到目前情感分析的词表有很多个语法和语义词库也有很多个但每个人在构建时的出发点不同构建者也分布在不同的高校或机构当中这些资源虽然在个数上会有增长但随着时间的推移这种零散化的现象将会越来越严重。
语言资源的实践
作者在学习和工作之余根据语言资源搭建策略构建起了语义词库、领域词库、领域语料库、评测语料库。种类约50种具体如下
语义知识库
类型名称介绍语义词库语法信息词典汉语词语的语法功能分类、词语的语法属性描述语义词库Hownet义原词典董振东老师研制汉语词语义原分类语义词库程度副词词典表示程度的词语义词库现代汉语词典现代汉语词典, txt版本语义词库否定词词典对意义进行反转的词典语义词库同义词词林词典哈工大同义词词典语义词库反义词词典反义词词表1.5W对语义词库同义词词典同义词词典5.5W对语义词库schema概念词典互动百科概念体系百度百科概念体系语义词库停用词自然语言处理用停用词词表
领域词库
类型名称介绍领域词库搜狗输入法领域词库超过1W个领域的搜狗输入法词库txt版本领域词库职位词典基于百万级拉钩JD网抽取形成的职位词典领域词库敏感词词词库敏感词词库包括政治、反动等词领域词库情感词词库大连理工、知网、港中大、台大、boson等公开情感词典
领域语料库
类型名称介绍领域语料库人民日报标注语料1998年人民日报分词语料库领域语料库20类小说文本集合20个领域(武侠、恐怖等)小说集合7K小说文本领域语料库字幕网70W字幕文本语料字幕网字幕文件解析70W字幕文本语料领域语料库内涵段子50W等语料基于内涵段子采集50W短文本领域语料库歌词14W语料基于公开歌词网采集14W首歌曲歌词领域语料库职位JD语料基于公开职位采集213W职位jd领域语料库古诗词语料唐诗宋词语料集合10W篇领域语料库相声剧本语料基于公开相声剧本网站采集6K篇领域语料库中文维基百科语料中文简体版98W篇领域语料库法务问答语料法务咨询问答对22W领域语料库股票问答语料股票相关咨询问答对10W领域语料库携程攻略50W携程攻略文本集50W篇领域语料库法律案例语料17W17W法律案例语料带案例标签领域语料库人民日报历时语料库1946-20031946-2003133W篇领域语料库参考消息历时语料库1957-20021957-200257W篇领域语料库腾讯滚动新闻历时语料库2009-2016腾讯历时滚动新闻(13板块)领域语料库酒店评论语料酒店评论数据7K条领域语料库外卖点评语料外卖评论数据1.2W条领域语料库京东商品评论语料10类商品6W条领域语料库新浪微博情感语料正文及评论10W条领域语料库细粒度微博情感语料喜悦、愤怒、厌恶、低落等标签共36W条领域语料库电影评论语料电影评分评论语料200W条领域语料库餐馆点评语料餐馆点评语料440W条领域语料库亚马逊商品评论语料亚马逊商品评论语料720W条
评测语料库
类型名称介绍评测语料库问句匹配英文question相似问句6.5W对中文微众银行问句集1000对评测语料库命名实体识别中文电子病历命名实体识别、微软MSR命名实体识别5W条评测语料库情感分析斯坦福sentibank评测语料库实体关系抽取中文人物关系数据集、英文SEMEVAL2008评测数据集(NYT,NYTfilter)评测语料库文本蕴含英文snli,multinli数据集116W中文文本蕴含数据集100W评测语料库音乐问句解析音乐问句解析数据集1.2W评测语料库幽默计算中文幽默计算数据集幽默类型、幽默等级、隐喻类型、隐喻等级分类等)评测语料库阅读理解squad数据集评测语料库知识图谱补全知识图谱链接数据集(FB15K, FB40K, Freebase, WN18,WordNet)评测语料库中文实体链接基于中文百科知识的实体链接数据集1.3K评测语料库中文自动问答中文智能问答数据集两个任务(问句意图分类航空、酒店、火车客服问答)评测语料库中文罪行分类法律智能评测数据集288W
总结
1、本项目阐述了语言资源的相关感想并给出了目前语言资源的构建现状目前为止收集了四个大类共50小类的语言资源数据集。 2、本项目中所涉及到的报告内容均来源于网上公开资源对此免责声明。 3、如果有需要用到以上作者收集到的这些语料库可以联系作者获取。 4、自然语言处理是人工智能皇冠上的一颗明珠懂语言者得天下语言资源在自然语言处理中扮演着举足轻重的作用懂语言资源者分得天下。目前开放的网络环境对语言资源的大繁荣提供了很大的契机。语言资源构建是一门学问也是一种手段现在自然语言处理技术也对语言资源的构建提供了技术上的支持如何把握语言资源搜索策略搭建策略重点解决语言资源的动态更新、共享与联盟问题将是语言资源建设未来需要解决的问题。
本项目地址https://github.com/liuhuanyong/ChineseNLPCorpus
如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作可联系我 1、我的github项目介绍https://liuhuanyong.github.io 2、我的csdn博客https://blog.csdn.net/lhy2014 3、刘焕勇中国科学院软件研究所lhy_in_blcu126.com