当前位置: 首页 > news >正文

健身房网站建设做pc端网站怎么样

健身房网站建设,做pc端网站怎么样,爱论坛,怎么免费自己做推广微博的热搜榜对于研究大众的流量有非常大的价值。今天的教程就来说说如何爬取微博的热搜榜。 热搜榜的链接是#xff1a;用浏览器浏览#xff0c;发现在不登录的情况下也可以正常查看#xff0c;那就简单多了。使用开发者工具(F12)查看页面逻辑#xff0c;并拿到每条热搜的…微博的热搜榜对于研究大众的流量有非常大的价值。今天的教程就来说说如何爬取微博的热搜榜。 热搜榜的链接是用浏览器浏览发现在不登录的情况下也可以正常查看那就简单多了。使用开发者工具(F12)查看页面逻辑并拿到每条热搜的CSS位置方法如下按照这个方法拿到这个td标签的selector是pl_top_realtimehot table tbody tr:nth-child(3) td.td-02 其中nth-child(3)指的是第三个tr标签因为这条热搜是在第三名的位置上但是我们要爬的是所有热搜因此:nth-child(3)可以去掉。还要注意的是 pl_top_realtimehot 是该标签的idid前需要加#号最后变成 #pl_top_realtimehot table tbody tr td.td-02你可以自定义你想要爬的信息这里我需要的信息是热搜的链接及标题、热搜的热度。它们分别对应的CSS选择器是链接及标题#pl_top_realtimehot table tbody tr td.td-02 a热度#pl_top_realtimehot table tbody tr td.td-02 span值得注意的是链接及标题是在同一个地方链接在a标签的href属性里标题在a的文本中用beautifulsoup有办法可以都拿到请看后文代码。现在这些信息的位置我们都知道了接下来可以开始编写程序。默认你已经安装好了python并能使用cmd的pip如果没有的话请见这篇教程python安装。需要用到的python的包有BeautifulSoup4:cmd/Terminal 安装指令pip install beautifulsoup4lxml解析器cmd/Terminal 安装指令pip install lxmllxml是python中的一个包这个包中包含了将html文本转成xml对象的工具可以让我们定位标签的位置。而能用来识别xml对象中这些标签的位置的包就是 Beautifulsoup4.编写代码# https://s.weibo.com/top/summary/import requestsfrom bs4 import BeautifulSoupif __name__ __main__:news []# 新建数组存放热搜榜hot_url https://s.weibo.com/top/summary/# 热搜榜链接r requests.get(hot_url)# 向链接发送get请求获得页面soup BeautifulSoup(r.text, lxml)# 解析页面urls_titles soup.select(#pl_top_realtimehot table tbody tr td.td-02 a)hotness soup.select(#pl_top_realtimehot table tbody tr td.td-02 span)for i in range(len(urls_titles)-1):hot_news {}# 将信息保存到字典中hot_news[title] urls_titles[i1].get_text()# get_text()获得a标签的文本hot_news[url] https://s.weibo.comurls_titles[i][href]# [href]获得a标签的链接并补全前缀hot_news[hotness] hotness[i].get_text()# 获得热度文本news.append(hot_news)# 字典追加到数组中print(news)代码说明请看注释不过这样做我们仅仅是将结果保存到数组中如下所示其实不易观看我们下面将其保存为csv文件。Python 热搜榜爬虫import datetimetoday datetime.date.today()f open(./热搜榜-%s.csv%(today), w, encodingutf-8)for i in news:f.write(i[title] , i[url] , i[hotness] n)效果如下怎么样是不是好看很多Python 微博热搜榜爬虫完整代码如下# https://s.weibo.com/top/summary/import requestsfrom bs4 import BeautifulSoupif __name__ __main__:news []# 新建数组存放热搜榜hot_url https://s.weibo.com/top/summary/# 热搜榜链接r requests.get(hot_url)# 向链接发送get请求获得页面soup BeautifulSoup(r.text, lxml)# 解析页面urls_titles soup.select(#pl_top_realtimehot table tbody tr td.td-02 a)hotness soup.select(#pl_top_realtimehot table tbody tr td.td-02 span)for i in range(len(urls_titles)-1):hot_news {}# 将信息保存到字典中hot_news[title] urls_titles[i1].get_text()# get_text()获得a标签的文本hot_news[url] https://s.weibo.comurls_titles[i][href]# [href]获得a标签的链接并补全前缀hot_news[hotness] hotness[i].get_text()# 获得热度文本news.append(hot_news)# 字典追加到数组中print(news)import datetimetoday datetime.date.today()f open(./热搜榜-%s.csv%(today), w, encodingutf-8)for i in news:f.write(i[title] , i[url] , i[hotness] n)​Python实用宝典 (pythondict.com)不只是一个宝典欢迎关注公众号Python实用宝典原文来自Python实用宝典Python 微博热搜
http://www.zqtcl.cn/news/174688/

相关文章:

  • 山东兴华建设集团有限公司网站分类信息网站怎么做
  • 怎么用手机网站做软件西安网站建设开发熊掌号
  • asp.net做网站的流程杭州vi设计广告公司
  • 微信网站主题网络建设解决方案
  • 济南自助建站系统网站的外链建设计划
  • 中山低价网站建设一学一做教育视频网站有哪些内容
  • 网上最好的网站模块模板建站小程序
  • 安平县哪家做网站html动漫网站模板下载
  • 网站关于 模板wordpress adsence
  • 杭州公司网站建设如何选择五屏网站建设
  • 天津商城网站建设平面设计师网站
  • 上海的网站设计公司苏州网站建设渠道
  • 做美食没有广告的网站o2o网站建设
  • 网站程序调试模式怎么做做汽车特卖会的网站
  • 怎么有自己的网站政务公开网站建设方案
  • 济南装饰行业网站建设成都地区网站开发成本
  • 宁波产品网站设计模板网站建设需要通过哪些审批
  • 了解网站建设管理网站开发的可行性研究报告
  • 淄博网站设计策划方案公司中文域名.网站
  • 综合网站系统电脑怎么做软件开发
  • 网站虚拟主持人制作国内网站建设排名
  • 上海房地产网站建设报价wordpress.备份
  • 网站建设运营维护合同专用车网站建设价格
  • 建设部咨询资质网站平台类网站建设公司
  • wap 网站 源码网站建立
  • 辽阳专业建设网站公司山东省工程建设招标信息网站
  • 下载专门做初中数学题的网站佛山网站制作在线
  • 永康物流网站蒙牛企业网站建设规划书
  • 网站开发发和后台开发有什么区别马鞍山网站建设价格
  • 广州建设银行预约公积金网站怎么下载ppt免费模板