南通网站建设排名公司哪家好,wordpress访问次数插件,南皮县建设局网站,p2p网站建设公司哪家好1. 前向最大匹配算法
假定分词词典中最长词有M个汉字符#xff0c;则被处理文档的当前字符串中前M个字作为匹配字段#xff0c;查找词典。若字典中存在这样M个字组成的词#xff0c;则匹配成功#xff0c;匹配字段作为一个词切分出来#xff1b;若匹配不成功#xff0c;…1. 前向最大匹配算法
假定分词词典中最长词有M个汉字符则被处理文档的当前字符串中前M个字作为匹配字段查找词典。若字典中存在这样M个字组成的词则匹配成功匹配字段作为一个词切分出来若匹配不成功将匹配字段最后一个字去掉剩下的字符串重新进行匹配如此进行下去直至匹配成功。然后取下一个M字符进行匹配处理直到文档被扫描完为止。
2. 逆向最大匹配算法
逆向最大匹配法从被处理的文档末端开始扫描匹配每次取最末端M个字符M为词典中最长的词的长度作为匹配字段若匹配失败则去掉匹配字段最前面的一个字符继续匹配如此下去直至分词完成。注意后处理好的分词列表是倒序排放所以需要reverse.
3. 双向最大匹配
双向最大匹配法是将正向最大匹配法和逆向最大匹配法结果比较选取词数切分最少的作为结果 双向最大匹配法规则
若正反向分词结果词数不同取分词数量较少的结果若分词结果词数相同 分词结果相同随意返回分词结果不同返回单字较少的结果