注册域名查询网站官网,wordpress短链接,厦门入夏网站建设公司,小程序制作搭建项目概述
DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库#xff0c;可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应…项目概述
DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候领域词汇可以作为一项重要的领域特征加入到模型当中可以提升领域性模型的性能。 地址https://github.com/liuhuanyong/DomainWordsDict
项目由来
1、领域性是自然语言处理中十分重要的一类问题不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段例如在没有标注语料进行有监督的领域文本分类中利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。 2、当前纵观中文开放语言资源并未有出现较大规模的领域性资源如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。
为了填补这一空白以及对领域性词库进行基础语言资源建设本项目被提出。
数据来源
通过对领域垂直网站的解析、领域文本的特征词提取近几年来对领域词典的收集与整理人工清洗等处理工作之后 最终形成了数学科学、人力招聘、天文科学、餐饮食品、外语学习等共计68个领域共计916万词的较大规模领域词汇库。
数据介绍
数据放在data文件夹下共68个txt文件每个文件以领域的名称命名。每个文件中的每一行包括两列(以tab符分开)分别代表词语名称以及对应的权重。文件中的词语按照权重从大到小的方式排列权重越高该词对于领域的代表性或区分能力就越强。在使用的过程中我们可以设定具体的权重域值在选用不同的词语来用于特定任务。
词典样例 项目总结
1、本项目开放了一个涵盖68个领域带有行业代表性权重的领域词库规模达到了916万词是目前开放词典资源中较大规模的一个填补了一定的空缺。 2领域词汇库的构建和开放是一项基础、必要且重要的工作。可以通过领域开放文本进行挖掘如基于垂直网站解析、文本特征词提取等诸多方法来实现。 3关于领域词汇知识库的构建方法和理论可以参考之前写的博客《领域词汇知识库的类型、可用资源与构建技术漫谈》https://blog.csdn.net/lhy2014/article/details/103995629。 4语言资源、经典词库的构建与目前盛行的深度学习自然语言处理并行不悖。将已构建好的领域词库或者知识库融合到深度学习模型当中是一个很好的前进方向。需要且必要地关注底层语义资源的建设。
关于作者
刘焕勇liuhuanyong现任360人工智能研究院算法专家前中科院软件所工程师主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。 得语言者得天下得语言资源者分得天下得语言逻辑者争得天下。 1、个人主页https://liuhuanyong.github.io。 2、个人博客https://blog.csdn.net/lhy2014/。 3、个人公众号老刘说NLP。 欢迎对自然语言处理、知识图谱、事件图谱理论技术、技术实践等落地应用的朋友一同交流。