当前位置: 首页 > news >正文

深圳网站快速排名优化句容网站建设制作

深圳网站快速排名优化,句容网站建设制作,苏州工业园区地图,浏览器打不开wordpress1.前言本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析#xff0c;本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/)2.数据爬取2.1定位到爬取数据打开我们要爬取的网页#xff0c;右键选择检查#xff0c;在窗口中单击左上角箭头#xff0c;即可…1.前言本篇文章主要介绍python爬虫及对爬取的数据进行可视化分析本次介绍所用的网站是(https://www.duanwenxue.com/jingdian/zheli/)2.数据爬取2.1定位到爬取数据打开我们要爬取的网页右键选择检查在窗口中单击左上角箭头即可查看我们需要爬取的内容2.2爬虫实现方法我们要爬取一个网页首先我们需要向网页发送一个请求,然后用get方法抓取数据(例如我要爬取https://www.duanwenxue.com/jingdian/zheli/的内容)import requestsurl https://www.duanwenxue.com/article/5034441.htmldoc requests.get(url)print(doc.text)1234通过这个方法获得数据是整个网页的源码接下来我们接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库其最主要的功能是从网页中抓取数据。(例如我要获得https://www.duanwenxue.com/article/5035160.html的散文)import requestsfrom bs4 import BeautifulSoupurlhttps://www.duanwenxue.com/article/5034441.htmlhtmlrequests.get(url)html.encodinggbkdocBeautifulSoup(html.text,lxml)adoc.find(span,{id:audio-span})cdoc.find(div,{id:shangDiv})a.decompose() # 删除无用信息c.decompose()contdoc.find(div,{class:article-content}).findAll(p)contentfor i in cont:print(i.text)1234567891011121314输出结果人生实在当下生活唯有形态在奋斗。——余昌开当下就是人生实现梦想奋斗时。——余昌开人务必从今开始努力奋斗实现人生的理想。——余昌开人活着最务实的形态是现在正在奋斗人生美好的进行中。——余昌开版权作品未经《短文学》书面授权严禁转载违者将被追究法律责任。3.数据可视化分析数据可视化是数据分析很重要的一部分将数据进行可视化,更直观的呈现使数据更加客观、更具说服力。matplotlib是用来创建图表的工具包之一是一个Python 2D绘图库它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形。3.1将短文学网的各类文章做一个统计柱形图plt.rcParams[font.sans-serif][SimHei]plt.figure(figsize(10,10))plt.xticks(rotation45)plt.title(各类文章数目)# 标题plt.xlabel(文章类型)#横坐标名字plt.ylabel(数量)#纵坐标名字plt.bar(x, y)for x,y in zip(x,y): plt.text(x,y,{f}.format(fy),hacenter,vabottom)plt.show()12345678910结果饼状图plt.figure(figsize(30, 30)) #设置大小plt.pie(y,labels x, autopct%1.1f%%)plt.axis(equal)plt.show()1234结果通过对柱形图和饼状图的观察可以发现在短文学中“散文随笔”“心情随笔”“散文诗”“散文文字”“经典语录”类的文学作品占大部分(82%)而其他类型的作品占小部分(18%)。3.2对某一类文章进行分析我们选择对励志文章的标题进行分析通过标题的重点词汇生成词云反映出这类文章的大致内容趋向于哪一方面。代码如下stopwords{你,我,的,自己}# 去掉无用的词word_cutjieba.cut(word_content)word_cut_join .join(word_cut)#把分词用空格连起来#生成词云wcWordCloud( font_pathsimsun.ttc,#设置字体 max_words100,#词云显示的最大词数 # maskmask_img,#设置背景图片 stopwordsstopwords, background_colorwhite#背景颜色 ).generate(word_cut_join)plt.imshow(wc)plt.axis(off)#去掉坐标轴plt.savefig(title.jpg)plt.show()12345678910111213141516结果可以看到多次出现的大学有 “河南”,“科技”,“大学”,“农学院”。以上便是本文全部内容代码只包含主要部分关于数据可视化还有其他几种方法具体可查看python使用Matplotlib画图。文章来源: blog.csdn.net作者Tbaodeng_T版权归原作者所有如需转载请联系作者。原文链接blog.csdn.net/Tbaodeng/article/details/111825063
http://www.zqtcl.cn/news/663158/

相关文章:

  • 净水机企业网站源码浏览器下载安装2022最新版
  • 高端网站建设四川网页版微信怎么下载
  • 青岛做网站皆赴青岛博采wordpress怎么改密码忘记
  • 深圳最好的网站建设广西论坛网站建设
  • html5网站设计网站建设 广西
  • 顺德手机网站设计价位网站开发学习流程图
  • 班级网站设计合肥蜀山网站开发
  • 杭州网站建设培训ck播放器整合WordPress
  • 网站建设是什么软件品牌策划公司哪家好推荐
  • 网站转跳怎么做餐饮vi设计
  • 刘连康seo培训哪家强网站优化推广平台
  • 网站推广内容滁州做网站的
  • 黄山做网站公司山东省住房和城乡建设厅举报电话
  • 中医科网站建设素材上海文明城市建设网站
  • html课程教学网站模板手机微信小程序开发教程
  • 用电脑做兼职的网站比较好食品网站建设网站定制开发
  • 网站开发 加密保护小程序制作开发进度表
  • 深圳坪山站外贸展示型网站建设
  • 手机端自定义做链接网站济南网站制作方案
  • 软件网站是怎么做的帮别人做网站赚多少钱
  • 纯静态网站 搜索功能佛山网站建设 奇锐科技
  • 四川省建设厅官方网站联系电话自己网站做虚拟币违法吗
  • 同城招聘网站自助建站2014 网站建设
  • 个人网站空间大小江油官方网站建设
  • 怎样建网站做什么网站能吸引流量
  • 做vi设计的网站网络营销推广思路
  • 简述网站设计流程沁水做网站
  • 南京公司网站建设怎么收费获奖网页设计
  • 网站域名试用期水墨风格网站源码
  • 长沙网站开长沙手机网站建设哪些内容