湖南省建设信息网站查询,自定义域名,网站的设计开发,国外域名交易网站目录
一、请求库的安装
1.requests 的安装
2.Selenium的安装
3.ChromeDrive 的安装
4.GeckoDriver 的安装
5.PhantomJS 的安装
6.aiohttp 的安装
二、解析库的安装
1.lxml 的安装
2.Beautiful Soup 的安装
3.pyquery 的安装
4.tesserocr 的安装 一、请求库的安装 …目录
一、请求库的安装
1.requests 的安装
2.Selenium的安装
3.ChromeDrive 的安装
4.GeckoDriver 的安装
5.PhantomJS 的安装
6.aiohttp 的安装
二、解析库的安装
1.lxml 的安装
2.Beautiful Soup 的安装
3.pyquery 的安装
4.tesserocr 的安装 一、请求库的安装 爬虫可以简单分为几步抓取页面、分析页面和存储数据 在抓取页面的过程中 我们需要模拟浏览器向服务器发出请求所以需要用到一些 Python 库来实现HTTP请求操作接下来我们介绍一下这些请求库的安装方法1、requests 的安装 1. 相关链接 GitHub:https://github.com/requests/requestsPyPI:requests · PyPI官方文档http://www.python-requests.org中文文档:http://docs.python-requests.org/zh_CN/latest2 . pip 安装
pip install requests
2、Selenium的安装 Selenium是一个自动化测试工具利用它我们可以驱动浏览器执行特定的动作如点击、下拉等操作对于一些JavaScript谊染的页面来说这种抓取方式非常有效。1.相关链接
官方网站https://www.seleniumhq.org GitHub: selenium/py at trunk · SeleniumHQ/selenium · GitHubPyPI: https://pypi.python.org/pypi/selenium 官方文梢:https://selenium-python.readthedocs.io中文文档:Selenium with Python中文翻译文档 — Selenium-Python中文文档 2 documentation2.pip 安装
pip install selenium
3、ChromeDrive 的安装
前面我们成功安装好了Selenium库但是他是一个自动化测试工具需要浏览器来配合使用。 首先下载 hrome 浏览器。 随后安装 ChromeDriver 因为只有安装 ChromeDriver 才能驱动 Chrome 浏览器完成相应的操作 下面我们来介绍下怎样安装 ChromeDriver。
1. 相关链接官方网站: https://sites.google.com/a/chromium.org/chrome.ver下载地址 :https://chromedriver.storage.googleapis.com/index.html2.准备工作 在这之前请确保已经正确安装好了 Chrome 浏览器并可以正常运行安装过程不再赘述3. 查看版本 点击 chrome 菜单“帮助”→“关于 Google Chrome”即可查看 Chrome 的版本号 这里我的 Chrome 版本是 96.0 请记住 Chrome 版本号因为选择 ChromeDriver 版本时需要用到4. 下载 ChromeDriver 打开 ChromeDriver 的官方网站可以看到最新版本为 96.04664.18 其支持的 Chrome 浏览器版本为 96.04664 如果你的 Chrome 版本号不在此范围可以继续查看之前的 hromeDriver 每个版本都有相 应的支持 Chrome 版本的介绍请找好自己的 Chrome 浏览器版本对应的 ChromeDriv er 版本再下载 否则可能无法正常工作 找好对应的版本号后随后到 hromeDriver 镜像站下载对应的安装包即可https://chromedriver.storage.googleapis.com/index.html 在不同平台下可以下载不同的安装包5.环境变量配置
下载完成后将 hromeDriver 的可执行文件配置到环境变量下 在Windows 下建议直接将 hromedriver.exe 文件拖到 Python Scripts 目录下6. 验证安装 配置完成后就可以在命令行下直接执行 chromedriver 命令了 chromedriver 随后再在程序中测 Python 代码 from selenium import webdriver
browser webdriver.Chrome() 返回 运行之后 如果弹出一个空Chrome 浏览器则证明所有的配置都没有问题。如果没有弹出 请检查之前的每一步配置。 如果弹出闪退则可能 ChromeDriver 版本和 Chrome 版本不兼容 请更换 ChromeDriver版本。如果没有问题 接下来就可以利用 Chrome 来做网页抓取了 4.GeckoDriver 的安装 上面我们了解了ChromeDriver的配置方法配置完成后可以用Selenium驱动Chrome浏览器做对应的网页抓取。 那么对应Firefox来说也可以用同样的方式完成Selenium的对接这时需要安装另一个驱动GeckoDriver接下来我们接受一下它的安装过程。
1. 相关链接GitHub: GitHub - mozilla/geckodriver: WebDriver for Firefox下载地址: Releases · mozilla/geckodriver · GitHub2. 准备工作 确保已经正确安装了Firefox浏览器并且能正常运行。 3.下载 GeckoDriver 在GitHub 上找 GeckoDriver 的发行版并找到最新版的如下是0.30 因我的电脑是win1064位的所以下载如图的 4. 环境变量配置
在Windows 下可以直接 geckodriver.exe 文件拖到 Python Scripts 录下如ChromeDrive 的安装一样5. 验证安装 配置完成后就可以在命令行下直接执行 geckodriver 命令测试geckodriver 返回如下则证明安装成功且配置正确 随后执行如下 Python 代码 在程序中测试一下 from selenium import webdriver
browser webdriver.Firefox() 返回不知为啥这次pycharm里运行会报错于是我用了Anaconda运行 运行之后若弹出一个空内的 firefox 浏览器则证明所有的配置都没有问题 如果没有弹出 请检查之前的每一步配置 5.PhantomJS 的安装 PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎它原生支持多 Web 标准 DOM 操作、 ss 选择器、 JSON Canvas 以及 SVG。Selenium 支持 PhantomJS 这样在运行的时候就不会再弹出 个浏览器了 而且 PhantomJS 的运 行效率也很高还支持各种参数配置使用非常方便 下面我 就来了解一下 PhantomJS 安装过程。1. 相关链接 官方网站 PhantomJS - Scriptable Headless Browser官方文梢Quick Start with PhantomJS下载地址1 Download PhantomJS下载地址2API 接门说明:Command Line Interface | PhantomJS 2. 下载 PhantomJS建议用下载地址1 在官网找到对应版本下载对应操作系统的安装包下载完成后将 PhantomJS 可执行文件所在的路径配置到环境变盘里 比如在 Windows 下将下载的文件解压之后并打开会看到一个 in 文件夹里面包括 个可执行文件 phantomjs.exe 我们需 要将它直接放在配置好环境变量的路径下或者将它所在的路径配置到环境变盘里 比如我们既可以 将它直接复制到 Python Scripts 文件夹也可以将它所在的 bin 目录加入到环境变量。 3. 验证安装 首先在命令提示符里输入 phantomjs并回车返回如下证明成功了 在Selenium 中使用的话我们只需要将 Chrome 切换为 PhantomJS 即可 from selenium import webdriver
browser webdriver.PhantomJS()
browser.get(https://www.baidu.com)
print(browser.current_url) 如果返回如下则说明selenium版本过高需要安装低版本的因为最新版已经放弃了phantomjs 1.先把selenium卸载代码如下: pip uninstall selenium 2.安装selenium2.48.0版本的代码如下 pip install selenium2.48.0 完美运行成功 返回 运行之后我们就不会发现有浏览器弹出了但实际上 PhantomJS 已经运行起来了 这里我们访 问了百度然后将当前的 URL 打印出来 控制台的输出如下 https: //www.baidu.com/ 如此一来我们便完成了 PhantomJS 的配置后面可以利用它来完成一些页面的抓取6.aiohttp 的安装 requests 库是一个阻塞式 HTTP 请求库当我们发出一个请求后程序会一直等待服务器响应直到得到响应后程序才会进行下 步处理 其实这个过程比较耗费时间 如果程序可以在这个等待过程中做一些其他的事情如进行请求的调度 响应的处理等那么爬取效率一定会大大提高 。 aiohttp 就是这样一个提供异步 Web 服务的库从 Python3.5版本开始python 中加入了 async/await 关键字使得回调的写法更加直观和人性 aiohttp即的异步操作借助于 async/await 关键字的写法变 得更加简洁架构更加清晰使用异步请求库进行数据抓取时会大大提高效率下面我 来看一下这个库的安装方法 1.相关链接 官方文档 Welcome to AIOHTTP — aiohttp 3.8.1 documentationGitHub: GitHub - aio-libs/aiohttp: Asynchronous HTTP client/server framework for asyncio and PythonPyPI: aiohttp · PyPI 2. pip 安装
pip install aiohttp 另外官方还推荐安装如下两个库个是字符编码检测库cchardet 另一个是加速DNS解析aiodns 安装命令如下 pip install cchardet aiodns 二、解析库的安装 1、lxml 的安装 lxm是Python的一个解析库支持 HTML和XML的解析支持XPath 解析方式而且解析效 率非常高。接下来我们了解一下 lxml 安装方式。 1.相关链接 官方网站lxml - Processing XML and HTML with PythonGitHub: https://github.com/lxml/lxml PyPI: https://pypi.org/pyp/lxml2 . Windows 下的安装 在Windows 下可以先尝试利用 pip 安装 此时直接执行如下命令即可 pip install lxml
#或
pip3 install lxml 如果没有任何报锚则证明安装成功 如果 现报 比如提示缺少 lib ml2 库等信息 可以采用 heel 方式安装 推荐直接到这里链接为https://www.lfd.uci.edu/-gohblke/pythonlibs/#lxml 下载对应的weel文 件找到本地安装 Python 版本和系统对应的 lxml 版本例如 Windows 64 位、 Python3.6就选作 lxml-3 .8.0-cp36-cp36m-win _ amd64. whl 将其下载到本地 然后利用 pip 安装即可命令如下 pip install lxml 3.8.0-cp36-cp36m-win_amd64 .whl
#或
pip3 install lxml 3.8.0-cp36-cp36m-win_amd64 .whl 这样我 就可以成功安装 lxml 3.验证安装 安装完成之后可以在 Python命令行下测试 如果没有错误报出则证明库已经安装好了 2.Beautiful Soup 的安装 Beautiful Soup是Python HTML或XML 的解析库我们可以用它来方便地从网页中提取 数据。它拥有强大的API 多样的解析方式。 1. 相关链接 官方文档Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation 中文文档Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 documentation PyPI: beautifulsoup4 · PyPI 2. 准备工作 Beautiful Soup HTML和XML 解析器是依赖于 lxml 库的所以在此之前请确保已经成功安装 好了 lxml 库具体的安装方式参见上面 3. pip 安装 pip install beautifulsoup4
#或
pip3 install beautifulsoup4 命令执行完毕之后即可完成安装 4. wheel 安装 可以从 PyPI下载wheel 文件安装链接如下:beautifulsoup4 · PyPI 然后使用pip 安装wheel 文件即可 5. 验证安装 安装完成之后可以运行下面的代码验证一下 from bs4 import BeautifulSoup
soup BeautifulSoup(pHello/p,lxml)
print(soup.p.string) 运行结果如下 运行一致则证明安装成功。 3.pyquery 的安装 pyquery 是 个强大的网页解析工具它提供了和 jQuery 类似的语法来解析 HTML 文梢支持CSS选择器使用非常方便。 1. 相关链接 GitHub: GitHub - gawel/pyquery: A jquery-like library for python PyPI : pyquery · PyPI 官方文档pyquery: a jquery-like library for python — pyquery 1.3.x documentation 2. pip 安装 pip install pyquery
#或
pip3 install pyquery 命令执行完毕之后即可完成安装 3. wheel 安装 可以从 PyPI下载wheel 文件安装链接如下:beautifulsoup4 · PyPIpyquery · PyPIbeautifulsoup4 · PyPI 然后使用pip 安装wheel 文件即可。比如如果当前版本为 1.2.17 则下载的文件名称为 pyquery-1.2.17-py2.py3-none-any.whl 此时下载到本地再进行 pip 安装即可命令如下 pip install pyquery-1.2.17-py2.py3-none-any.whl
#或
pip3 install pyquery-1.2.17-py2.py3-none-any.whl 4. 验证安装 安装完成之后可以运行下面的代码验证一下 import pyquery 运行结果如下 运行没有报错则证明安装成功。 4.tesserocr 的安装 在爬虫过程中难免会遇到各种各样的验证码而大多数验证码还是图形验证码这时候我们 以直接用 OCR 来识别。 1.OCR OCR 即 Optical Character Recognition 光学字符识别是指通过扫描字符然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说它们都是一些不规则的字符 这些字符确实是由字符稍加扭曲变换得到的内容 tesserocr是Python的一个 OCR 识别库但其实是对 tesseract 做的 一层Python API 封装所以它的核心是 tesseract 因此在安装 tesserocr 前我们需要先安装tesseract 。 2.相关链接 tesserocr GitHub: GitHub - sirfz/tesserocr: A Python wrapper for the tesseract-ocr APItesserocr Py PI: tesserocr · PyPItesserac 下载地址Index of /tesseract tesserac GitHub :https://github.com/tesseract-ocr/tesseract tesserac 语言包 https://github.com/tesseract-ocr/tessdata tesseract 文档: Manual Pages | tessdoc 3. Windows 下的安装 在Window 下首先需要下载 tesseract 它为 tesserocr 提供了支持进入下载页面其中文件名中带有 dev 的为开发版本不带 dev 的为稳定版本可以选择下载不带 dev 的版本。 例如可以选择下载 tesseract-ocr-w64-setup-v5.0.1.20220107.exe 下载完成后双击 好像没有中文版的 然后一直点 next 和 i agree 就行直到 此时可以句选 Additional language data download 选项来安装 OCR 识别支持的语 包这样 OCR 便可以识别多国语言 然后一直点击 Next 按钮即可 接下来 再安装 tesserocr 即可此时直接使用 pip 安装 pip install tesserocr pillow
#或
pip3 install tesserocr pillow 4.验证安装 接下来我们可以使用 tesseract tesserocr 来分别进行测试下面这张图片 首先用 tesseract 命令测试 打开照片所在文件夹按住 shift 击右键 打开 powershell窗口 输入下面命令 tesseract image.png stdout -l eng 得到结果 然后我们看一下在python中如何演示 首先现安装库 pip install pytesseract 如何想要在python中使用 pytesseract 库则需要先添加 tesseract 的环境变量 1.将tesseract.exe添加到环境变量PATH中 我的电脑——右键——属性——高级系统设置——环境变量——将 tesseract.exe 所在的文件夹的路径添加到 path 中 2. 修改pytesseract.py文件指定tesseract.exe安装路径 然后打开它 import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmdrD:\Tesseract-OCR\tesseract.exe
imageImage.open(D:\桌面\python\jupyter\image.png)#所要识别的图片的位置
#默认是英文如果是英文就不需更改
textpytesseract.image_to_string(image)
#默认是英文如果是中文要将语言改成中文。
# textpytesseract.image_to_string(image,langchi_sim)
print(text) 返回 库先安装到这里后面还有很多很多等我慢慢补充嘿嘿