网站改版要重新备案,深圳做网站建设的公司,外贸网络营销该如何做,公司电子邮箱怎么注册嗨喽~大家好呀#xff0c;这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取
一、jieba库基本介绍
jieba库概述
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库#xff0c;需要额外安…嗨喽~大家好呀这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取
一、jieba库基本介绍
jieba库概述
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库需要额外安装 jieba库提供三种分词模式最简单只需掌握一个函数
jieba分词的原理
Jieba分词依靠中文词库 利用一个中文词库确定汉字之间的关联概率 汉字间概率大的组成词组形成分词结果 除了分词用户还可以添加自定义的词组
二、jieba库使用说明
jieba分词的三种模式
精确模式、全模式、搜索引擎模式 精确模式把文本精确的切分开不存在冗余单词 全模式把文本中所有可能的词语都扫描出来有冗余 搜索引擎模式在精确模式基础上对长词再次切分
jieba库常用函数 三、jieba应用实例 四、利用jieba库统计三国演义中任务的出场次数 遇到问题没人解答小编创建了一个Python学习交流QQ群926207505
寻找有志同道合的小伙伴互帮互助,群里还有不错的视频学习教程和PDF电子书import jiebatxt open(D:\\三国演义.txt, r, encodingutf-8).read()
words jieba.lcut(txt) # 使用精确模式对文本进行分词
counts {} # 通过键值对的形式存储词语及其出现的次数for word in words:if len(word) 1: # 单个词语不计算在内continueelse:counts[word] counts.get(word, 0) 1 # 遍历所有词语每出现一次其对应的值加 1items list(counts.items())#将键值对转换成列表
items.sort(keylambda x: x[1], reverseTrue) # 根据词语出现的次数进行从大到小排序for i in range(15):word, count items[i]print({0:5}{1:5}.format(word, count))统计了次数对多前十五个名词曹操不愧是一代枭雄第一名当之无愧
但是我们会发现得到的数据还是需要进一步处理比如一些无用的词语一些重复意思的词语。
尾语
最后感谢你观看我的文章呐~本次航班到这里就结束啦
希望本篇文章有对你带来帮助 有学习到一点知识~
躲起来的星星也在努力发光你也要努力加油让我们一起努力叭。 最后宣传一下呀~更多源码、资料、素材、解答、交流皆点击下方名片获取呀