快速搭建网站教程,巴中做网站公司,W7如何安装WordPress,株洲网红在使用Hanlp词典或者jieba词典进行分词的时候#xff0c;会出现分词不准的情况#xff0c;原因是内置词典中并没有收录当前这个词#xff0c;也就是我们所说的未登录词#xff0c;只要把这个词加入到内置词典中就可以解决类似问题#xff0c;如何操作呢#xff0c;下面我…在使用Hanlp词典或者jieba词典进行分词的时候会出现分词不准的情况原因是内置词典中并没有收录当前这个词也就是我们所说的未登录词只要把这个词加入到内置词典中就可以解决类似问题如何操作呢下面我们来看一下一在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom也就是Hanlp安装包中的data\dictionary\custom下目录2.将未登录词以词名词性词频的格式添加到文件中(句首或者句尾都可以)3.将字典的同名bin文件删除掉执行文件时读取的是bin文件必须删掉后等下次执行时重新生成新字典才发挥作用4.使用新字典重新执行文件执行时会遇到没有相关bin文件的提示不过放心程序会自动生成一个新的bin文件骚等片刻就好了。验证结果是否正确二在jieba词典中添加未登录词先来看看没添加登录词的效果好我们需要开始添加未登录词了1.新建一个dict.txt文件将未登录词直接添加到txt文件中2.加载dict.txt文件这个过程有一步要动态调整词频因为词典默认是从词频较高的词开始匹配调整未登录词的词频靠前这样可以优先匹配#-*- codingutf8 -*-import jiebaimport re#将添加有未登录词的词典加载进来jieba.load_userdict(D:\hnlp\hanlp_code\dict.txt)#动态调整词频让未登录词的词频自动靠前这样可以优先匹配[jieba.suggest_freq(line.strip(), tuneTrue) for line in open(dict.txt,r,encodingutf8)]stringTNM分期不太能明确地区分 ,以及辅助治疗(氟尿嘧啶单药或联合奥沙利铂)wordsjieba.cut(string,HMMFalse)print(/.join(words))3.验证分词是否有效文章来源于小鱼儿的博客