当前位置: 首页 > news >正文

建设网站教程视频主机屋wordpress

建设网站教程视频,主机屋wordpress,定制开发软件开发,用什么软件制作网站何为数据挖掘#xff0c;顾名思义就是从大量数据中挖掘或抽取出知识。在实际中#xff0c;进行数据挖掘的数据不仅仅有数值型数据#xff0c;还有图片型数据#xff0c;文本型数据等。而所谓文本挖掘#xff0c;就是从大量文本数据中#xff0c;提取出对信息使用者有价值… 何为数据挖掘顾名思义就是从大量数据中挖掘或抽取出知识。在实际中进行数据挖掘的数据不仅仅有数值型数据还有图片型数据文本型数据等。而所谓文本挖掘就是从大量文本数据中提取出对信息使用者有价值的信息。文本挖掘主要的研究领域有文本结构分析文本分类文本聚类文本关联分析等。今天小编用一个例子为大家讲解使用支持向量机SVM进行短文本分类。对于支持向量机前面已有小伙伴对它进行详细介绍若想了解具体情况可查看历史文章python机器学习——支持向量机(入门理解)数据说明本次用来训练及测试的分类数据有两类分别是“体育”类及“文学出版”类“体育”类数据由899个短文本组成“文学出版”类数据由797个短文本组成。先来看看利用SVM文本分类的流程吧数据预处理----数据向量化----利用Sklearn-learn进行SVM分类一、数据预处理对于文本挖掘数据预处理的过程必不可少同时也至关重要。在数据预处理过程中主要是进行中文分词及去除停用词。(一)中文分词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程该过程主要为第二步数据向量化特征选择做准备。Jieba分词是目前国内使用人数最多的中文分词工具且支持三种分词模式下面对其三种分词模式的使用方法进行简单介绍。(二)去除停用词由于中国人的说话习惯在中文语句中会有许多的语气用词“啊呀,呢”及一些无特殊含义的词“的这儿一些”等这些词没有实际意义确占比较大一方面增大了计算量另一方面减少了有意义词的权重。去除停用词采取的方法通常是建立一个专门的停用词库然后调用词库去掉无意义词汇网上有许多停用词词库这儿就不具体介绍了。二、数据向量化数据向量化是连接文本型数据与计算机的桥梁可以将文本型数据转化为计算机可读的数值型数据。目前较为常见的数据向量化方法是使用词向量模型。词向量(Word embedding)又叫Word嵌入是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称它是通过“浅层双层的神经网络”对大量文本进行训练从而将每一个词对应一个向量建立起词与词之间的关系。这儿对于其训练过程不做过多赘述直接看如何使用吧 三、利用Scikit-learn进行SVM分类Scikit-learn(sklearn)是机器学习中常用的第三方模块对常用的机器学习方法进行了封装包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时便可根据下图来选择相应的方法。Scikit-learn中的SVM算法库分为两类一类是分类的算法库包括SVC NuSVC和LinearSVC 3个类另一类是回归算法库包括SVR NuSVR和LinearSVR 3个类。相关的类都包含在sklearn.svm模块之中。下面就开始使用Scikit-learn进行SVM短文本分类啦在该过程有如下几个步骤(一)分类数据贴标签 分别对两类数据进行数据预处理及数据向量化后每一个短文本都由一个向量表示。接着按照分类将“体育”类文本贴上标签“1”“文学出版”类文本贴上标签“0”。(二)合并分类数据并拆分训练集测试集将两类数据及对应的数据标签对应合并接下来使用“sklearn”模块中“train_test_split”包对数据进行切割随机选择30%的数据作为测试集剩余数据作为训练集。(三)利用SVM模型进行训练并测试SVM模型有许多核函数使用不同核函数其效果也不尽相同在这里使用三个不同的核函数做对比看看针对本案例那个核函数的预测效果更佳。在该过程使用了“sklearn”模块中“classification_report”和“accuracy_score”包获得预测的准确度精确度召回率F1值。Accuracy:(准确度)它是预测正确的正例和负例数据占全部数据的比例。A(TPTN)/(TPTNFPFN)precision(精确度)它是预测正确的正例数据占预测为正例数据的比例。PTP/(TPFP)Recall(召回率)它是预测为正例的数据占实际为正例数据的比例。RTP/(TPFN)f1-score:(F1)它是精确度和召回率的调和平均值,1使用线性核函数的预测结果      Accuracy: 0.86463654223968562使用多项式核函数的预测结果 Accuracy: 0.85677799607072693使用径向基核函数的预测结果Accuracy: 0.8292730844793713通过对比可看出对于本案例使用线性核函数的分类效果更好。通过这个例子大家是否掌握了进行文本分类的技巧呢实际上在文本挖掘中它的前期处理过程大致相同需要改变只有分类模型的使用哦以下是代码和分类数据的百度网盘链接https://pan.baidu.com/s/1MO8cXoHvG4ylhhOv57zu5w 提取码qf2w文字来源|陈丹图片来源|陈丹编辑|宋欣蕊审核|叶紫薇欢迎大家转发但大家记得标明原创出处哟~如果喜欢记得点【在看】呀~扫描关注我们的公众号↓
http://www.zqtcl.cn/news/239569/

相关文章:

  • 物业网站模板哪里建设网站
  • 达州城乡建设网站手机网站 方案
  • 平台兼职网站开发许昌做网站优化
  • 婴幼儿用品网站开发意义基因网站开发
  • 自己网站页面设计软件传奇世界游戏官网
  • 淘宝网网站开发部技术部三亚私人高清影院品牌加盟
  • 网站是用什么软件做的山西网络科技有限公司
  • 汕头网站建设开发做购物网站 营业范围是什么
  • 网站建设 企业短视频运营计划书
  • 网站仿静态网站城市分站织梦系统
  • 淄博网站建设高端企业最新商业资讯
  • 百度推广太原网站建设wordpress的页面和首页一样
  • 无为网站定制php网站 mysql数据库配置文件
  • 如何利用div做网站wordpress替换百度站内搜索
  • 大德通网站建设互动营销网站
  • 网站建设与管理实训主要内容响应式网站建设智能优化
  • 佛山市企业网站建设报价网站建
  • 广州网站营销推广设计孝义网站开发
  • 新站网站如何做Seo那个网站点击率高
  • 个体做外贸的网站罗浮视窗网站建设
  • 产品企业网站上海关键词排名优化公司
  • 网站APP推广东莞人才招聘网58
  • 惠州网站建设哪家好建筑网站建设方案
  • 淄博网站制作营销wordpress 轮播图自适应
  • 响应式网站切图网站入口首页
  • 静态网站开发考虑什么网上推广引流的有用吗?
  • 网站建设包括哪些东西工业设计最好的公司
  • 网站建设方案书 模板网站地址做图标
  • 财务公司网站模板wordpress域名文件夹
  • 网站标题写什么作用是什么网络推广学校培训