怎么用ps做网站,个人主页网站,视频网站开发报告,seo如何进行优化最近在学习爬虫#xff0c;做个笔记吧 今天爬xx政府网站-政策法规栏目的数据 咱们首先需要找到数据从哪里来#xff0c;鼠标右键-检查#xff08;或者快捷键一般为F12#xff09;检查元素#xff0c;搜索关键词
eg.【违法案例】
回车#xff0c;
如果没有的话做个笔记吧 今天爬xx政府网站-政策法规栏目的数据 咱们首先需要找到数据从哪里来鼠标右键-检查或者快捷键一般为F12检查元素搜索关键词
eg.【违法案例】
回车
如果没有的话可以尝试刷新页面后重新回车搜索关键词 选中其中一个出现的搜索结果 找到接口后咱们看下是不是想要爬取的数据 找到接口了就是它 http://www.whggzy.com/portal/category 请求方法是POST 接下来咱们看下它的请求头Headers跟请求参数Data吧
1. Headers 2. POST请求方法的Data: 咱们到现在直接按照这个Headers和Data构造发送HTTP请求肯定没问题但咱们要写爬虫代码
第一步看看Headers和Data里面哪些参数是必要的
第二步有必要参数是加密的么【或者说不能复制粘贴过来直接用的】
首先尝试下最基础的Referer和User-Agent够用不够用 运行爬虫程序结果如下 咱们对照着Headers参数看看可能是缺了Content-Type
加上后再次运行 O了成功获取数据这边我把他保存到文件里了方便截屏给各位读者朋友看 Headers和Data中没啥加密的就一个时间戳_t会变咱们再修改下代码生成时间戳吧
注意这里的时间戳要注意位数原本的时间戳是13位的咱们这里也得和它一样 运行后没得问题能拿到数据 视频教程里在确定Headers里必要的参数时是采取的调试JS代码的方式我这边是直接通过程序返回的结果判断了少Content-Type
这里我也调试下JS代码练练手。请各位看官看看吧。 咱们按照JS调试中获得的headers参数修改下爬虫代码试试看 搜索路径 /portal/category 添加XHR断点刷新页面单步调试直到出现headers 也可以成功获得数据