济南免费网站制作,wordpress分类添加轮播图,网络营销方法有哪几种,微信小程序怎么做网站文章目录如何阅读本文#xff1f;Hanlp用户自定义词典引用简介操作步骤环境创建编辑词典文件将用户自定义词典路径加入配置文件删除缓存文件如何阅读本文#xff1f;
首先我们对Hanlp用户词典进行简介#xff0c;推荐首先阅读链接文章#xff0c;它是本文的第一来源#…
文章目录如何阅读本文Hanlp用户自定义词典引用简介操作步骤环境创建编辑词典文件将用户自定义词典路径加入配置文件删除缓存文件如何阅读本文
首先我们对Hanlp用户词典进行简介推荐首先阅读链接文章它是本文的第一来源环境配置方面分为几个步骤每个需要动手操作的步骤都用黑体加粗显示依据这些步骤你完全可以将用户自定义词典创建完成但是我们建议将分析部分仔细看一看加深理解对每一个步骤出现的问题我们都进行了解释并提供了解决方案如果你是为了解决问题来到的本文可以使用CtrlF查找你想解决的问题很有可能就在文章中仅供参考感谢来到这里─≡Σ(((つ•̀ω•́)つ
Hanlp用户自定义词典引用简介
考完六级的我回来了~ 在之前的文章中提到了Hanlp用户自定义词典的作用和详细信息传送门Hanlp之理解用户自定义词典java版本那篇文章的源代码分析还没写 光说不练假把式今天我们一步一步来配置一个自定义词典并在分词中使用它(Java版本)
操作步骤
环境创建
java项目在IDE中创建一个java项目将hanlp-jar和hanlp-sources-jar引入到项目Build Path当我们第一次使用时将sources包attach到项目就可以查看源代码了否则是无法查看的同时将Hanlp的配置文件导入到classpath放入项目文件的bin目录下即可我们一会要着重操作这个配置文件 Hanlp文件我们在第一步已经导入了两个包同时将配置文件加入到了classpath我们还需要在Hanlp根目录下任意位置创建一个词典文件我们这里以txt格式为例。
问题1我的词典文件应该创建在哪里呢任意位置都可以吗
答我们希望你将文件创建在Hanlp配置文件声明的根目录下你如果仔细观察配置文件的话会发现Hanlp
的地址规则原文如下
#本配置文件中的路径的根目录根目录其他路径完整路径支持相对路径请参考https://github.com/hankcs/HanLP/pull/254
#Windows用户请注意路径分隔符统一使用/
紧接着一行就是你配置的根目录root
所以最好将文件创建在根目录下。
同时注意windows OS用户的分隔符请使用 /不要转义。至此我们就将环境创建好了。
编辑词典文件
我们知道了词典内部数据的组织方式我们也要按照这个方式来进行加载在应用时我们经常通过流操作来写入数据由于这次演示的数据量比较小我们直接输入。
进入编辑器我们编辑词典文件我创建了一个名称为 我的词典.txt 的词典文件在里面我定义了一个开斯卡名词和一个子库啊动词显然这两个在现有语料库中没有任何意义的词是不太可能分到一起的当我们需要将这两个词分到一起时就可以将他们加入词典
问题2开斯卡和子库啊两个词在分词时一定会分到一起吗
答还是不一定为什么“还是”请看链接文章解释。这两个词在分词时会有很大概率在一起但不是一定
当你充分了解后果后可以使用 Segment #enableCustomDictionaryForcing 强制分词问题3我应该如何编辑文件格式是什么
答输入单词同时加入词性和出现频率词性和频率不是必须项省略会使用默认值默认值我们会在稍后
介绍词性表请见 http://www.hankcs.com/nlp/part-of-speech-tagging.html#h2-8
单词之间请使用制表符或者空格隔开这意味着单词之间不允许出现空格保存文件注意一定要将文件保存为UTF-8编码Hanlp使用UTF-8编码
将用户自定义词典路径加入配置文件
路径配置规则 1#本配置文件中的路径的根目录根目录其他路径完整路径支持相对路径请参考https://github.com/hankcs/HanLP/pull/254 #Windows用户请注意路径分隔符统一使用/ 2#自定义词典路径用;隔开多个自定义词典空格开头表示在同一个目录使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。操作 首先确定根目录根目录是data目录的父目录 然后将词典移动至父目录下的任意一个位置创建时就在请忽略此步 在CustomDictionaryPath后追加字典位置值为绝对路径-root路径比如我的词典文件路径是 F:\java学习\Hanlp\data\dictionary\custom\我的词典.txt而root是F:\java学习\Hanlp\所以我应该在最后写入data\dictionary\custom\我的词典.txt 如果创建的词典文件和已有的词典在一个目录在上一目录分号后输入一个空格直接追加文件名称即可
删除缓存文件
在配置完毕后我们一定要删除之前加载字典时产生的缓存文件比如下图中的CustomDictionary.txt.bin文件就是上次产生的缓存文件我们将他删除
问题4 我们为什么要删除缓存文件
答Hanlp首次加载词典/模型会发生一个自动缓存的过程自动缓存的目的是为了加速词典载入速度在下次
载入时缓存的词典文件会带来毫秒级的加载速度。
如果我们不删除这个文件Hanlp会直接使用缓存进行分词不会应用新的改变手动删除后再次加载会
重新缓存这是我们的自定义词典就会加载到缓存了。
注意字典删除加入词语时不用重新创建缓存。