如何做宣传自己公司网站,响应式网站 模版,东莞市建设企业网站服务机构,已经有网站域名如何做网页前言
以前写爬虫都是用requests包#xff0c;虽然很好用#xff0c;不过还是要封装一些header啊什么的#xff0c;也没有用过无头浏览器#xff0c;今天偶然接触了一下。
原因是在处理一个错误的时候#xff0c;用到了几个以前没有用过的工具#xff1b;这几个工具也挺常…前言
以前写爬虫都是用requests包虽然很好用不过还是要封装一些header啊什么的也没有用过无头浏览器今天偶然接触了一下。
原因是在处理一个错误的时候用到了几个以前没有用过的工具这几个工具也挺常见的在这里一起总结一下。包括以下几个
selenium
requests-html
selenium
简介
selenium是一个网页自动化测试的工具既然是网页测试的那么肯定支持各种浏览器了常见的Firefox/Chrome/Safari都支持当然也需要你下载对应浏览器的驱动了。下面简单说一下他的使用方式。
安装
使用pip install selenium安装selenium
安装对应浏览器驱动chrome的可以去这里下载
把驱动copy到/usr/local/bin下非必须不拷贝的话在使用的时候需要制定驱动的路径
简单使用遇到问题没人解答小编创建了一个Python学习交流QQ群778463939
寻找有志同道合的小伙伴互帮互助,群里还有不错的视频学习教程和PDF电子书from selenium import webdriver
driver webdriver.chrome.webdriver.WebDriver()
driver.get(https://www.lagou.com/jobs/3490584.html)
# 获取源码
a driver.page_source.encode(utf-8)
# 查找资源/tag
driver.find_element_by_xpath(u//img[alt强化学习 (Reinforcement Learning)]).click()
driver.find_element_by_link_text(About).click()
# 截图
driver.get_screenshot_as_file(./img/sreenshot1.png)
requests-html
简介
是不是看见requests很熟悉没错这个就是会拍照又会写代码的requests的作者写的又一个库
这个库代码并不是很多都是基于其他库封装的lxml/requests啊这些使用也很简单遵循了他的宗旨for humans
安装
pip install requests-html
使用
from requests_html import HTMLSession
session HTMLSession()
r session.get(https://python.org/)
# 获取页面上的链接
r.html.links
r.html.absolute_links
# 用css选择器选择一个元素
about r.html.find(#about, firstTrue)
print(about.text)
# xpath
r.html.xpath(a)