旅游型网站的建设背景图片,查网址是否安全,石家庄php网站建设,地产平面设计主要做什么全文简介
本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据#xff0c;别人网站当然会反爬越来越严厉。所以#xff0c;不要难为别人#xff0c;到最后其实是在难为你自己。至于为什么不爬PC端#xff0c…全文简介
本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据别人网站当然会反爬越来越严厉。所以不要难为别人到最后其实是在难为你自己。至于为什么不爬PC端原因是移动端较简单很适合爬虫新手入门。有时间再写PC端吧
环境介绍
Python3
Windows-10-64位
微博移动端
网页分析
以获取评论信息为例你可以以自己的喜好获得其他数据。如下图
在这里就会涉及到一个动态加载的概念也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址找到真实网址的方法就是打开浏览器的开发者工具火狐/谷歌是F12键。打开如下
打开以后点击网络网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动在这个过程中就会弹出类似于上图的信息也就是评论信息加载出来了。找到评论信息应该会在第一条。如下图
真实网址https://m.weibo.cn/api/comments/show?id4160547165300149page3
将网址在火狐里面打开如下图
上面的网址其实pages3就代表第三页所以只需模拟网址即可pages4,5,6。。。。
另外由于是Json文件所以提取数据非常方便只需用切片操作即可。
Python代码
代码写的丑凑合着看吧。
python有趣吗好玩吗想学吗这里小编创建了一个python学习交流群308754087 里面也会不定时分享关于Python的免费学习资料欢迎想学习的小伙伴的加入python有你更精彩嘿嘿