一个网站的预算,wordpress找不到页面内容编辑,国外作品集网站,专业制作标书原文链接#xff1a;https://blog.csdn.net/shijing_0214/article/details/71036808 无意中在知乎中看到一个问题#xff1a;淘宝的评论归纳是如何做到的#xff1f; 了解之后觉得较为容易实现#xff0c;就简单实现了一个对用户评论的标签抽取功能#xff0c;纯属兴趣所致…原文链接https://blog.csdn.net/shijing_0214/article/details/71036808 无意中在知乎中看到一个问题淘宝的评论归纳是如何做到的 了解之后觉得较为容易实现就简单实现了一个对用户评论的标签抽取功能纯属兴趣所致所以并没有做十分细致的工作例如词向量仅用不到3M的评论语料进行训练词典也是随便找了一些词构建的代码见CommentsMining。 首先来看下评论标签抽取是做什么的如图 我们希望在给出下面的评论语料里自动抽取出上面矩形框中大家一致认同的评论标签展现给用户观看方便用户快速了解商品特点。对某件商品的标签抽取简单实现的一个效果如下 抽取出来的标签看起来还算正常。 我这里主要是用句法分析word2vecdbscan词典来实现的这样一个功能具体步骤如下 1、语料收集 使用爬虫简单爬取了某电商网站女装衬衫下的一些评论语料由训练集与测试集两部分构成测试集里仅包含对某件衬衫的评论语料用于最后的评论抽取训练集里包含对多个衬衫的评论语料用于word2vec的训练处理后的训练集如下 2、训练评论词向量 使用上面得到的训练集首先使用斯坦福的分词工具进行分词处理并去掉停用词 此处见教程。然后将分词结果交给word2vec来训练出关于评论语料的词向量本地方用的评论语料仅不到3M为了得到更好的词向量可以考虑增加语料的规模。词向量的维度此处为50维。 3、依存句法分析 使用斯坦福nlp工具包中文model文件来对测试语料做句法分析。因为上一步有用到分词工具这里建议直接下载斯坦福的 coreNLP中文model文件来使用句法分析得到的结果如下 4、制定抽取规则 根据上一步对评论语料进行依存句法分析得到的结果总结出评论标签的抽取规则如 nsubj advmod nsubj advmod advmod advmod advmod advmod amod 5、获得候选标签 结合抽取规则及情感词典获得候选标签。 6、候选标签消重 可以利用simhash算法对候选标签集合进行消重。 7、候选标签聚类 利用dbscanword2vec对候选标签进行聚类通过聚类将语义相似的一些标签聚在一起实现语义消重的作用。使用dbscan可以很好地将相关标签聚在一起而不过多地引入杂质。 8、获得目标标签 对每个聚成的簇计算其聚类中心并返回与聚类中心最近的一条评论返回前可以对该条评论进行过滤词的操作如”颜色比较暗“过滤后变成”颜色暗“。 9、总结 以上是对用户评论标签抽取的简单实现如若需要做的更细致一些本人认为可以从下面几点细化 1、训练语料规模为了实现方便只爬了2M多点的语料但2M多的语料太小了词向量必然不会很准好的词向量对聚类至关重要。 2、停用词表、情感词典的构建好的词典应基于语料构建这里的停用词表及情感词典都是在网上随便找了一些词添加进来效果必然不会太好。 3、抽取规则 抽取规则设计的比较简单会在产生候选标签中生成较多的杂质这些杂质会对标签抽取产生比较大的影响。 参考 1. 用户评论中的标签抽取以及排序李丕绩2012.