当前位置：首页 > news >正文

茶具网站模板网站开发建设中

news 2025/11/15 18:42:49

茶具网站模板,网站开发建设中,江宁区住房建设局网站,绍兴市网站建设公司我用 python 做爬虫爬过不少数据#xff0c;比如在 google play 爬应用信息#xff1b;在 instragram, 500px 爬图片#xff1b;当然爬虫的作用不止于此#xff0c;比如定时去某个网站签到#xff0c;妈妈再也不用担心我忘记签到了这些网站支持游客访问#xff0c;但要访… 我用 python 做爬虫爬过不少数据比如在 google play 爬应用信息在 instragram, 500px 爬图片当然爬虫的作用不止于此比如定时去某个网站签到妈妈再也不用担心我忘记签到了这些网站支持游客访问但要访问特定内容比如你收藏的图片或者要签到那前提是要登录。现在的网站登录验证是越来越复杂了且不说那些真人都挠头的验证码就算是不需要验证码的网站也各出奇招像 gitee 是通过前端加密登录信息而 instagram 则是通过 url 里的 query_hash 以及 header 里的 X-CSRFTokenX-Instagram-GIS 来做校验对爬虫很不友好都不是那么容易登录进去的直接发送账号密码到登录接口有些淳朴的网站其登录校验只要提供帐号密码就行通过浏览器抓包看下数据格式然后照样发起请求就可以了比如 500px其登录验证几乎没有难度代码如下# -*- coding: utf-8 -*-import requestsimport jsonfrom profile import email, passwordsession requests.session()if __name__ __main__: url https://api.500px.com/v1/session data {session: {email: email,password: password } } headers {Content-Type: application/json} result session.post(url, datajson.dumps(data), headersheaders)print(result.text)登录成功后网站会向客户端写入 cookie后续访问就一路畅通了在 python 里则意味着我们需要用 session 发起后续请求复杂的登录校验这次以 gitee 为例来研究下如何登录先用浏览器抓包看下 gitee 的登录gitee 登录地址gitee 登录数据可以看到要登录 gitee请求参数里有 authenticity_token 和加密后的 password这个 token 怎么来的根据经验判断应该是藏在 gitee 登录页某处感觉不难获取关键是这个 password 的加密应该是某个 js 脚本的功劳不过要逆向出 js 是如何加密的的确是非常困难的。。。毕竟我们不是 js 执行引擎如果无法逆向出这个加密算法要怎么登录呢可以先用浏览器登录再把 cookie 复制出来给爬虫使用首先是复制 cookie浏览器登录 gitee 成功后随意抓个包就可以得到 cookie 了gitee cookie复制下来的 cookie 设置到爬虫里代码如下# -*- coding: utf-8 -*-import requestssession requests.session()if __name__ __main__: headers {Host: gitee.com,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36,Accept: application/json,Cache-Control: no-cache,Connection: keep-alive, } url https://gitee.com/api/v3/internal/my_resources result session.get(urlurl, headersheaders)if result.status_code 200: print(success: \n%s % (result.text))else: print(result.status_code) headers[Cookie] ...... result session.get(urlurl, headersheaders)if result.status_code 200: print(success: \n%s % (result.text))else: print(result.status_code)执行结果如下// 未设置 cookie 返回 401401// 设置 cookie 后返回数据success:{enterprises_count:0...}可见使用浏览器的 cookie 就可以达到爬虫免登录的效果了程序自动获取 cookie浏览器抓包再复制 cookie 到爬虫代码感觉有点 low实际上 cookie 是保存在我们电脑上的这样浏览器才能做到记住登录状态功能那么可以让爬虫自己读取浏览器 cookie从而避免我们抓包再复制吗答案是肯定的考虑到文章篇幅我将在下一篇文章里介绍如何用代码读取浏览器已存储 cookie 来进行登录敬请期待

查看全文

http://www.zqtcl.cn/news/219367/