seo怎么做网站优秀案例,公路开发公司,做网站端口内容无法替换,系统管理网站jieba用起来非常简单#xff0c;短短几行代码就完成了分词工作(下图)#xff0c;可是...仔细一看发现哪里不对了“段誉”作为一个姓名没有被单独分出来#xff0c;而是和其他一些动词连在一起#xff0c;另外也有一些角色名字被拆分成了两个甚至更多的单词#xff0c;例如…jieba用起来非常简单短短几行代码就完成了分词工作(下图)可是...仔细一看发现哪里不对了“段誉”作为一个姓名没有被单独分出来而是和其他一些动词连在一起另外也有一些角色名字被拆分成了两个甚至更多的单词例如“神仙姊姊”被分成了“神仙”和“姊姊”两个词。不过这也难怪中文的灵活性太强一个词往往有多层含义和多种用法看来直接使用jieba分词还是会有不小的误差我们得想办法来解决这个问题不然会对分析结果造成干扰。现在是不是有一种“我为刀俎它为鱼肉”的感觉了。经过简单的数据处理我们得到了每个人物的名字在小说中出现的频次由于萧峰和乔峰是同一个人为了方便统计将两个名字的出场次合并。然后取出场率排名前30位的角色数据用图表的形式展示出来。其实《天龙八部》的中心思想就是“求不得”段誉不想学武功却练成了绝世神通一心追求王语嫣最终美人对慕容复不离不弃萧峰立志保卫大宋没想到自己居然是契丹人决定与阿朱塞外牧马然而造化弄人心爱的人却死在自己手上这里我们仅提取词长度不小于4的成语、俗语和短语进行分析。同时考虑到某些人名(例如上官婉儿、澹台灭明)等专有名词会对分析结果造成干扰在分词取词的时候可以一并过滤掉最终得到这样一份词语文件2.云图对用词习惯的分析更倾向于定性分析我们这里使用词云图来作展示首先绘制《萍踪侠影录》的词云图。我们可以看到在这篇小说中“微微一笑”、“哈哈大笑”、“大吃一惊”、“非同小可”等词语使用频率非常高再来看另一部作品《女帝奇英传》词云图如下进群125240963 即可获取数十套PDF哦如您对本文有疑问或者有任何想说的请点击进行留言回复万千网友为您解惑