建设网站教程视频,主机屋wordpress,定制开发软件开发,用什么软件制作网站何为数据挖掘#xff0c;顾名思义就是从大量数据中挖掘或抽取出知识。在实际中#xff0c;进行数据挖掘的数据不仅仅有数值型数据#xff0c;还有图片型数据#xff0c;文本型数据等。而所谓文本挖掘#xff0c;就是从大量文本数据中#xff0c;提取出对信息使用者有价值… 何为数据挖掘顾名思义就是从大量数据中挖掘或抽取出知识。在实际中进行数据挖掘的数据不仅仅有数值型数据还有图片型数据文本型数据等。而所谓文本挖掘就是从大量文本数据中提取出对信息使用者有价值的信息。文本挖掘主要的研究领域有文本结构分析文本分类文本聚类文本关联分析等。今天小编用一个例子为大家讲解使用支持向量机SVM进行短文本分类。对于支持向量机前面已有小伙伴对它进行详细介绍若想了解具体情况可查看历史文章python机器学习——支持向量机(入门理解)数据说明本次用来训练及测试的分类数据有两类分别是“体育”类及“文学出版”类“体育”类数据由899个短文本组成“文学出版”类数据由797个短文本组成。先来看看利用SVM文本分类的流程吧数据预处理----数据向量化----利用Sklearn-learn进行SVM分类一、数据预处理对于文本挖掘数据预处理的过程必不可少同时也至关重要。在数据预处理过程中主要是进行中文分词及去除停用词。(一)中文分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程该过程主要为第二步数据向量化特征选择做准备。Jieba分词是目前国内使用人数最多的中文分词工具且支持三种分词模式下面对其三种分词模式的使用方法进行简单介绍。(二)去除停用词由于中国人的说话习惯在中文语句中会有许多的语气用词“啊呀,呢”及一些无特殊含义的词“的这儿一些”等这些词没有实际意义确占比较大一方面增大了计算量另一方面减少了有意义词的权重。去除停用词采取的方法通常是建立一个专门的停用词库然后调用词库去掉无意义词汇网上有许多停用词词库这儿就不具体介绍了。二、数据向量化数据向量化是连接文本型数据与计算机的桥梁可以将文本型数据转化为计算机可读的数值型数据。目前较为常见的数据向量化方法是使用词向量模型。词向量(Word embedding)又叫Word嵌入是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称它是通过“浅层双层的神经网络”对大量文本进行训练从而将每一个词对应一个向量建立起词与词之间的关系。这儿对于其训练过程不做过多赘述直接看如何使用吧 三、利用Scikit-learn进行SVM分类Scikit-learn(sklearn)是机器学习中常用的第三方模块对常用的机器学习方法进行了封装包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时便可根据下图来选择相应的方法。Scikit-learn中的SVM算法库分为两类一类是分类的算法库包括SVC NuSVC和LinearSVC 3个类另一类是回归算法库包括SVR NuSVR和LinearSVR 3个类。相关的类都包含在sklearn.svm模块之中。下面就开始使用Scikit-learn进行SVM短文本分类啦在该过程有如下几个步骤(一)分类数据贴标签 分别对两类数据进行数据预处理及数据向量化后每一个短文本都由一个向量表示。接着按照分类将“体育”类文本贴上标签“1”“文学出版”类文本贴上标签“0”。(二)合并分类数据并拆分训练集测试集将两类数据及对应的数据标签对应合并接下来使用“sklearn”模块中“train_test_split”包对数据进行切割随机选择30%的数据作为测试集剩余数据作为训练集。(三)利用SVM模型进行训练并测试SVM模型有许多核函数使用不同核函数其效果也不尽相同在这里使用三个不同的核函数做对比看看针对本案例那个核函数的预测效果更佳。在该过程使用了“sklearn”模块中“classification_report”和“accuracy_score”包获得预测的准确度精确度召回率F1值。Accuracy:(准确度)它是预测正确的正例和负例数据占全部数据的比例。A(TPTN)/(TPTNFPFN)precision(精确度)它是预测正确的正例数据占预测为正例数据的比例。PTP/(TPFP)Recall(召回率)它是预测为正例的数据占实际为正例数据的比例。RTP/(TPFN)f1-score:(F1)它是精确度和召回率的调和平均值,1使用线性核函数的预测结果 Accuracy: 0.86463654223968562使用多项式核函数的预测结果 Accuracy: 0.85677799607072693使用径向基核函数的预测结果Accuracy: 0.8292730844793713通过对比可看出对于本案例使用线性核函数的分类效果更好。通过这个例子大家是否掌握了进行文本分类的技巧呢实际上在文本挖掘中它的前期处理过程大致相同需要改变只有分类模型的使用哦以下是代码和分类数据的百度网盘链接https://pan.baidu.com/s/1MO8cXoHvG4ylhhOv57zu5w 提取码qf2w文字来源|陈丹图片来源|陈丹编辑|宋欣蕊审核|叶紫薇欢迎大家转发但大家记得标明原创出处哟~如果喜欢记得点【在看】呀~扫描关注我们的公众号↓