logo素材网站,wordpress模板添加授权,wordpress 百度插件,wordpress小工具目录文章目录 Python下载安装开发工具IDEA包管理安装pip基本用法从 requirements.txt 安装依赖 项目示例部署在 Linux 上安装Python在 Linux 上创建虚拟环境#xff1a;安装依赖#xff1a;运行你的爬虫 Python下载安装
Python 安装包下载地址#xff1a;https://www.python.or… 文章目录 Python下载安装开发工具IDEA包管理安装pip基本用法从 requirements.txt 安装依赖 项目示例部署在 Linux 上安装Python在 Linux 上创建虚拟环境安装依赖运行你的爬虫 Python下载安装
Python 安装包下载地址https://www.python.org/downloads/
https://www.python.org/downloads/windows/
1.有两个版本的 Python分别是 Python 3.x 和 Python 2.x选择3.x
embeddable zip file表示.zip格式的绿色免安装版本可以直接嵌入集成到其它的应用程序中executable installer表示.exe格式的可执行程序这是完整的离线安装包一般选择这个即可
2.下载安装勾选ADD python to PATH安装即可
3.验证
# 在控制台输入python
python
# 输出
Python 3.7.9 (tags/v3.7.9:13c94747c7, Aug 17 2020, 18:58:18) [MSC v.1900 64 bit (AMD64)] on win32
Type help, copyright, credits or license for more information.
# 输入exit()退出
exit()开发工具IDEA
1.下载Python插件
2.新建项目 其中的环境类型为选择第一个虚拟环境【python-virtualenv】
虚拟环境为您的Python包提供了一个干净的工作空间以便您安装的库不会与为其他项目安装的库发生冲突。
包管理 类似java中的mavenpython有很多优秀的管理工具pip、anaconda、poetry 这里我们使用自带的pip 安装pip
大多数情况下Python 安装时已经包含了 pip。您可以通过以下命令检查是否已安装
pip --version如果没有安装可以使用以下命令安装
python -m ensurepip --default-pip基本用法
一般来说第三方库都会在Python官方的pypi.python.org网站注册要安装一个第三方库必须先知道该库的名称可以在官网或者pypi上搜索比如Pillow的名称叫Pillow因此安装Pillow的命令就是
pip install Pillow
# 查看已安装的包
pip list
# 查找包
pip search package_name
# 安装包
pip install package_name
# 安装特定版本
pip install package_name1.2.3
# 安装大于或等于某版本的最新版
pip install package_name1.2.3
# 升级包 到最新版本
pip install --upgrade package_name
# 卸载包
pip uninstall package_name
# 查看包的信息
pip show package_name
#
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests从 requirements.txt 安装依赖
如果您有一个 requirements.txt 文件其中列有项目依赖的包及其版本可以使用以下命令一次性安装它们
pip install -r requirements.txtrequirements.txt示例
# 项目依赖列表
package11.2.3
package22.0.0
package34.0.0根据具体的包和版本要求来编辑这个文件。通常在团队协作或部署项目时使用 requirements.txt 是一种标准的做法以确保每个开发者或部署环境都使用相同的依赖版本。
导出依赖信息
在你的项目目录下运行以下命令将当前虚拟环境的依赖导出到 requirements.txt 文件
pip freeze requirements.txt这会生成一个包含项目依赖的文件其中包括 requests 和 beautifulsoup4。
项目示例
网络爬虫是一种自动化程序用于抓取互联网上的数据。网络爬虫可以自动访问网页、解析网页内容、提取所需数据、存储数据等。通过使用网络爬虫我们可以获取大量的数据从而进行数据分析、数据挖掘等应用。
在抓取网站数据时需要遵守网站的robots协议和使用条款等规定不得未经授权地进行抓取。在抓取网站数据时需要考虑网络性能和资源消耗避免对网站造成不必要的负担。在抓取网站数据时需要考虑数据质量和数据安全避免抓取到恶意数据或错误数据。
网络爬虫常用库如下
requests库用于发送HTTP请求和接收HTTP响应。例如使用requests.get(url)来发送GET请求使用requests.post(url, data)来发送POST请求。BeautifulSoup库用于解析HTML和XML文档。例如使用BeautifulSoup(html, ‘html.parser’)来解析HTML文档使用BeautifulSoup(xml, ‘xml’)来解析XML文档。
以下是一个爬虫示例 首先安装上面2个依赖库 pip install requests pip install beautifulsoup4 import requests
from bs4 import BeautifulSoupurl https://www.python.org/# 发送HTTP请求
response requests.get(url)# 解析HTML文档
soup BeautifulSoup(response.text, html.parser)# 提取数据
title soup.title.string
links [link.get(href) for link in soup.find_all(a)]# 打印结果
print(title)
for link in links:print(link)部署
在 Linux 上安装Python
sudo yum install python3
# 显示已安装的版本号
python --version
# python3用这个
python3 --version在 Linux 上创建虚拟环境
在 Linux 服务器上进入你的项目目录并创建一个新的虚拟环境
python3 -m venv venv激活虚拟环境
source venv/bin/activate安装依赖
使用 pip 安装项目依赖
pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip
# 或者手动安装
pip install requestspip install beautifulsoup4运行你的爬虫
确保你的项目中有一个入口文件例如main.py然后在虚拟环境中运行你的爬虫
python3 main.py