当前位置: 首页 > news >正文

茶具网站模板网站开发建设中

茶具网站模板,网站开发建设中,江宁区住房建设局网站,绍兴市网站建设公司我用 python 做爬虫爬过不少数据#xff0c;比如在 google play 爬应用信息#xff1b;在 instragram, 500px 爬图片#xff1b;当然爬虫的作用不止于此#xff0c;比如定时去某个网站签到#xff0c;妈妈再也不用担心我忘记签到了这些网站支持游客访问#xff0c;但要访… 我用 python 做爬虫爬过不少数据比如在 google play 爬应用信息在 instragram, 500px 爬图片当然爬虫的作用不止于此比如定时去某个网站签到妈妈再也不用担心我忘记签到了这些网站支持游客访问但要访问特定内容比如你收藏的图片或者要签到那前提是要登录。现在的网站登录验证是越来越复杂了且不说那些真人都挠头的验证码就算是不需要验证码的网站也各出奇招像 gitee 是通过前端加密登录信息而 instagram 则是通过 url 里的 query_hash 以及 header 里的 X-CSRFTokenX-Instagram-GIS 来做校验对爬虫很不友好都不是那么容易登录进去的直接发送账号密码到登录接口有些淳朴的网站其登录校验只要提供帐号密码就行通过浏览器抓包看下数据格式然后照样发起请求就可以了比如 500px其登录验证几乎没有难度代码如下# -*- coding: utf-8 -*-import requestsimport jsonfrom profile import email, passwordsession requests.session()if __name__ __main__: url https://api.500px.com/v1/session data {session: {email: email,password: password } } headers {Content-Type: application/json} result session.post(url, datajson.dumps(data), headersheaders)print(result.text)登录成功后网站会向客户端写入 cookie后续访问就一路畅通了在 python 里则意味着我们需要用 session 发起后续请求复杂的登录校验这次以 gitee 为例来研究下如何登录先用浏览器抓包看下 gitee 的登录gitee 登录地址gitee 登录数据可以看到要登录 gitee请求参数里有 authenticity_token 和 加密后的 password这个 token 怎么来的根据经验判断应该是藏在 gitee 登录页某处感觉不难获取关键是这个 password 的加密应该是某个 js 脚本的功劳不过要逆向出 js 是如何加密的的确是非常困难的。。。毕竟我们不是 js 执行引擎如果无法逆向出这个加密算法要怎么登录呢可以先用浏览器登录再把 cookie 复制出来给爬虫使用首先是复制 cookie浏览器登录 gitee 成功后随意抓个包就可以得到 cookie 了gitee cookie复制下来的 cookie 设置到爬虫里代码如下# -*- coding: utf-8 -*-import requestssession requests.session()if __name__ __main__: headers {Host: gitee.com,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36,Accept: application/json,Cache-Control: no-cache,Connection: keep-alive, } url https://gitee.com/api/v3/internal/my_resources result session.get(urlurl, headersheaders)if result.status_code 200: print(success: \n%s % (result.text))else: print(result.status_code) headers[Cookie] ...... result session.get(urlurl, headersheaders)if result.status_code 200: print(success: \n%s % (result.text))else: print(result.status_code)执行结果如下// 未设置 cookie 返回 401401// 设置 cookie 后返回数据success:{enterprises_count:0...}可见使用浏览器的 cookie 就可以达到爬虫免登录的效果了程序自动获取 cookie浏览器抓包再复制 cookie 到爬虫代码感觉有点 low实际上 cookie 是保存在我们电脑上的这样浏览器才能做到记住登录状态功能那么可以让爬虫自己读取浏览器 cookie从而避免我们抓包再复制吗答案是肯定的考虑到文章篇幅我将在下一篇文章里介绍如何用代码读取浏览器已存储 cookie 来进行登录敬请期待
http://www.zqtcl.cn/news/219367/

相关文章:

  • 法人变更在哪个网站做公示做企业平台的网站有哪些
  • 制作网站过程有免费的网站域名吗
  • 简单做网站用什么软件价格优惠
  • 在线自助下单网站建设银行上海分行招聘网站
  • 网站备案期间停止解析网站改版后 存在大量404页面
  • 朝阳网站建设 国展东莞常平邮政编码多少
  • 深圳网站建设微赢天下做视频网站服务器多少钱
  • 中小企业网站建设与管理课后答案wordpress主题 亚马逊
  • 网站制作关键技术上海网站建设收费
  • 深圳做互联网教网站公司集团管理软件
  • 华宁网站建设网站建设与维护新的体会
  • 网站后台清空北京网站建设厂家
  • 济南建设银行网站应用制作app软件
  • 网站开发实习个人小结关于做展厅的网站
  • 网站设计三把火如何制作动漫网站模板
  • 重庆做网站 哪个好些嘛开通qq空间申请网址
  • 制作网站 太原买的电脑没有wordpress
  • 图书馆建设投稿网站可信网站认证logo
  • 专做阀门网站网站如何做银联在线支付
  • 南通网站seo网页制作图片轮播
  • 高端品牌网站建设哪家好中医网站模板
  • 怎么做多语言网站图片添加文字在线制作
  • js特效演示网站wordpress本地视频
  • 徐州做网站哪个好上海国际人才网
  • 黑龙江省城乡和住房建设厅网站首页公司营业执照查询
  • 锦州北京网站建设支付公司网站建设会计分录
  • 泉州做网站优化价格软件公众号开发
  • 商丘旅游网站的建设攀枝花城市建设网站
  • 网站主页设计素材一条龙做网站
  • 咖啡店网站首页怎么做163邮箱注册