当前位置: 首页 > news >正文

如何修改网站备案号凡科网页登录

如何修改网站备案号,凡科网页登录,培训机构网站开发,做写手一般上什么网站好目录 一、原文二、故事前半段背景内容三、正经的讲点DrissionPage知识四、故事的收尾 一、原文 原文来自一个爬虫自动化数据采集的故事~ , 建议点击链接看文章末尾的视频笔者不擅长自动化#xff0c;一个小小故事分享给大家#xff0c;仅个人观点 二、故事前半段背景内容 … 目录 一、原文二、故事前半段背景内容三、正经的讲点DrissionPage知识四、故事的收尾 一、原文 原文来自一个爬虫自动化数据采集的故事~ , 建议点击链接看文章末尾的视频笔者不擅长自动化一个小小故事分享给大家仅个人观点 二、故事前半段背景内容 以下文章来自网友小时投稿仅供十一姐使用 有时候她幻想自己会幽默点会成为一个小说家一个会讲故事的人… 所以那天她奋笔疾书用尽她不太多的词汇脑洞写下如下的内容… hello, 大家好我是十一姐今天和大家分享一个在爬虫圈里被不少人安利的自动化库Drissionpage它可以通过控制浏览器跟网页进行交互爬取数据它的官方使用文档https://g1879.gitee.io/drissionpagedocs/get_start/installation 相信绝大多数使用爬虫获取数据的人他们一贯的方式可能都是直接找数据接口然后模拟接口请求向服务器发送数据包最终获得想要的数据 但这也让他们面临着更大的挑战比如他们时常会遇到各种反爬如加密/混淆/vmp/反调试/验证码/风控/封ip账号等等甚至等爬虫人破解完了后面还有无限的人机风控等着他封账号/封ip/封指纹 它到底在哪里埋了蜜罐哪里设置了陷阱能够如此精准的识别我不是个人 (ps: 这里的“我”指的是爬虫代码脚本程序 举个例子他们会遇到各种丧心病狂反人类的验证码反爬如果“我”是个人“我”都不敢相信“我”这个人可能会选择点击正确当然说得有点夸张了使用这些比较反人类的验证码的网站还是比较少的实际上大多数网站的验证码还是比较考虑“真实的人”感受的 所以当那些加密算法破解越来越耗时/风控越来越强时爬虫人的头发似乎可能也开始日渐稀疏时...... 他的眼神开始越来越空洞不知何时是头不知何时能破要一周吗NoNo要一个月吗NoNoNo到底要多久呀到底什么才是头呀这就反爬对爬虫的折磨 于是向天呐喊有没有大佬指点指点帮助帮助呀…请赐我一个所谓的逆向大神吧 然而现实中神面对众多繁星的愿望虽有心而力不足他也很无奈神也有自己想忙的事情 所以与其继续坚持逆向下去有时候妥协放弃也是一种勇气但倔强的我舍不得难道之前的努力就白费了吗就这么隐藏入尘埃了吗爬虫人儿势必要给反爬点颜色瞧瞧哪怕是蚊子痛也行 于是为了短时间的拿到了少量的数据用来应急入库那个曾经被爬虫一部分人嗤之以鼻的最朴素的方法并且认为速度太慢的自动化而现在又回去求”怀抱“ 慢慢爬也未尝不可真香永不过时 接下来我们要提一提爬虫程序曾“临幸过”哪些第三方自动化爬取的库/项目截图来自网站https://spiderbox.cn/ 比如sekiro、jsrpc大家熟悉的selenium/undetected_selenium/puppeteer , 以及后来大家非常喜欢的playwright 等等 有个伟人讲过不管黑猫白猫能抓住老鼠的都是好猫 所以工具不再乎多只要能用就是好猫我本身并不擅长自动化但是在爬虫圈圈里大家都在提drissionpage可以过国外反爬五秒盾cloudflare / shape /Google 等人机检测工具时 不得不说它此刻确实有点无敌强大 毕竟之前用过的很多老版的自动化会被反爬检测特征指纹什么的于是作者也感慨到或许是幸运大厂们还没意识到”我DrissionPage“的出现所以还未曾对我实施监控未曾对我痛下杀手 当然那只是浅浅的感慨可能之所以不被检测到是因为DrissionPage的底层基于cdp协议(Chrome DevTools Protocol)以下是懒神推荐读的cdp代码 https://chromedevtools.github.io/devtools-protocol/ 然后据挖哥科普DrissionPage底层源码如图通过命令chrome.exe --remote-debugging-port9222 远程调试托管浏览器的源码这意味着使用dp可以打开我们日常使用的浏览器继承它已存在的登陆cookie信息/插件信息等 三、正经的讲点DrissionPage知识 初次如何使用DrissionPage(大家简称dp)先通过pip install DrissionPage --upgrade安装然后再复制执行如下代码这里我使用的是xpath语法定位元素 1、如下代码可以操控浏览器打开一个网页获取html源码/文本/属性值 from DrissionPage import ChromiumOptions, ChromiumPageco ChromiumOptions().use_system_user_path() print(page1要控制的浏览器地址, co.address) print(page1浏览器默认可执行文件的路径, co.browser_path) print(page1用户数据文件夹路径, co.user_data_path) print(page1用户配置文件夹名称, co.user, \n) page ChromiumPage(co)page.get(http://g1879.gitee.io/DrissionPageDocs, retry3, interval2, timeout15) print(f\n当前对象控制的页面地址和端口: {page.address}\n浏览器进程id: {page.process_id}\n标签页id: {page.tab_id}) print(\n当前概述html, page.ele(x://*[id️-概述]).html) print(\n当前版本信息text, page.ele(x://p[contains(text(),最新版本)]).text) print(\ngit链接属性值, page.ele(x://p[contains(text(),项目地址)]/a).attr(href))# page.quit() 退出浏览器2、如下代码可以像network/fiddler那样实现数据抓包获得请求头/响应头/响应文本等 from DrissionPage import ChromiumPage, ChromiumOptionsco ChromiumOptions().set_paths(browser_pathrC:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe) page ChromiumPage(co) # 开始监听指定获取包含该文本的数据包 page.listen.start(detail?nodeId) # 默认不启动正则匹配这里代表url包含该字符串启动正则匹配需要配置 is_regexTrue page.get(https://ygp.gdzwfw.gov.cn/#/44/new/jygg/v3/A?noticeIddc240acc-d8a3-48ab-b16a-bad2e64a1ff7projectCodeE4401000002400710001bizCode3C51siteCode440100publishDate20240302000028source%E5%B9%BF%E4%BA%A4%E6%98%93%E6%95%B0%E5%AD%97%E4%BA%A4%E6%98%93%E5%B9%B3%E5%8F%B0titleDetails%E5%B7%A5%E7%A8%8B%E5%BB%BA%E8%AE%BEclassifyA02nodeId1762040444150657029) # 访问网址 data_packet page.listen.wait() print(本标签页id与框架id , data_packet.tab_id, data_packet.frameId) print(数据包请求网址 , data_packet.method, data_packet.url) print(响应文本 , data_packet.response.body, data_packet.response.raw_body) print(响应头 , data_packet.response.headers) print(请求头信息 , data_packet.request.headers) for key, value in data_packet.request.headers.items():print(f\t【name】 {key} 【value】 {value}) print(请求头表单信息 , data_packet.request.postData) print(连接失败信息 , data_packet.fail_info.errorText)3、如下代码可以启动两个互不相干的全新的浏览器auto_port会生成随机的端口和临时用户文件夹 from DrissionPage import ChromiumPage, ChromiumOptions co ChromiumOptions() co.auto_port(True) page1 ChromiumPage(co) print(page1要控制的浏览器地址, co.address) print(page1浏览器默认可执行文件的路径, co.browser_path) print(page1用户数据文件夹路径, co.user_data_path) print(page1用户配置文件夹名称, co.user, \n) page2 ChromiumPage(co) print(page2要控制的浏览器地址, co.address) print(page2浏览器默认可执行文件的路径, co.browser_path) print(page2用户数据文件夹路径, co.user_data_path) print(page2用户配置文件夹名称, co.user) # 每个页面对象控制一个浏览器 page1.get(https://www.baidu.com) page2.get(http://www.163.com)4、当然你也可以指定固定的端口和用户目录来创建两个全新的浏览器 from DrissionPage import ChromiumPage, ChromiumOptions# 创建多个配置对象每个指定不同的端口号和用户文件夹路径 do1 ChromiumOptions().set_paths(local_port9111, user_data_pathrD:\data1) do2 ChromiumOptions().set_paths(local_port9223, user_data_pathrD:\data2)# 创建多个页面对象 page1 ChromiumPage(addr_or_optsdo1) print(page1要控制的浏览器地址, do1.address) print(page1浏览器默认可执行文件的路径, do1.browser_path) print(page1用户数据文件夹路径, do1.user_data_path) print(page1用户配置文件夹名称, do1.user, \n) page2 ChromiumPage(addr_or_optsdo2) print(page2要控制的浏览器地址, do2.address) print(page2浏览器默认可执行文件的路径, do2.browser_path) print(page2用户数据文件夹路径, do2.user_data_path) print(page2用户配置文件夹名称, do2.user) # 每个页面对象控制一个浏览器 page1.get(https://www.baidu.com) page2.get(http://www.163.com)5、如果你要多线程并发的开不同的标签页/浏览器等page.get_tab()是获取当前标签页对象 而page.new_tab()是打开另一个标签页直接看作者提供的官方源码案例 https://g1879.gitee.io/drissionpagedocs/demos/actual/multithread 6、在作者的官方文档里面提供了更多的实战案例大家可以多多试试比如可以携带插件自动切换代理可以执行js脚本可以截图录像等 , https://g1879.gitee.io/drissionpagedocs/demos/functions/new_browser 四、故事的收尾 文章的末尾
http://www.zqtcl.cn/news/945317/

相关文章:

  • 用asp.net和access做的关于校园二手网站的论文网站环境搭建好后怎么做网站
  • 如何查网站的外链哈尔滨微信网站开发
  • 洛阳设计网站公司建设银行网站 购买外汇
  • 做视频网站的备案要求吗给工厂做代加工
  • 网站建设技术外包西安推荐企业网站制作平台
  • 建立一个做笔记的网站石家庄网站优化
  • 服务器创建多个网站吗中铁雄安建设有限公司网站
  • 建湖建网站的公司网站建设人工费
  • 沈阳公司网站设计公司怎么投放广告
  • 上海哪家做网站关键词排名如何做简洁网站设计
  • 网站维护的内容seo网站关键词优化哪家好
  • 东阳市网站建设西安做网站选哪家公司
  • 宁津网站开发万能应用商店下载
  • 专业制作标书网站地图优化
  • 广州建网站兴田德润团队什么是网络营销详细点
  • win7建网站教程wordpress chrome插件开发
  • 免费行情软件网站下载视频公司介绍ppt制作模板
  • wordpress快速建站wordpress短代码可视化
  • 餐饮型网站开发比较好看的网页设计
  • 网站管理包括潍坊网站建设优化
  • 南开集团网站建设网站服务器搭建
  • 网络的最基本定义泰安seo网络公司
  • 国外比较好的资源网站请人做外贸网站应注意什么问题
  • 人网站设计与制作什么是销售型网站
  • 最简单网站开发软件有哪些企业电子商务网站建设问题
  • 玉林网站制作简单的网站制作代码
  • 滨州建设厅网站长沙好的做网站品牌
  • 教务系统网站建设模板下载为网站开发
  • 成都市建设招标网站加载wordpress外部文件
  • 网站做兼容处理怎么浙江seo博客