国外设计搜索网站,哪里做网站做的好,网络系统架构图,网站设计和网站建设并发
什么是并发#xff1f;并发#xff0c;在操作系统中#xff0c;是指一个时间段中有几个程序都处于已启动运行到运行完毕之间#xff0c;且这几个程序都是在同一个处理机上运行#xff0c;但任一个时刻点上只有一个程序在处理机上运行。
嗯#xff0c;字认识#…并发
什么是并发并发在操作系统中是指一个时间段中有几个程序都处于已启动运行到运行完毕之间且这几个程序都是在同一个处理机上运行但任一个时刻点上只有一个程序在处理机上运行。
嗯字认识但是连在一起就有点够呛哈哈开个玩笑。
我们通过几个例子来较为深刻的理解一下
第一个例子
我们用requests 成功请求一个网页实际上requests做了三件事
根据链接、参数登组合成一个请求把这个请求发往要爬取的网站等待网站响应网站响应后把结果包装成一个响应对象方便我们使用 从上面的图中我们可以看出步骤2花费的时间是最长的取决于被爬虫网站的性能这个时间可能达到几十到几百毫秒。相比之下步骤1、3可能只需要1毫秒左右的时间比上面这张图的对比还要夸张。
针对这个程序步骤2也可以代表程序是空闲的因为在等待网站的响应因此代码真正运行的时间很短。
第二个例子
我们连续用requests请求三个网页A、B、C执行效果如下 这个相当于把三个请求串行起来执行他们之间是互相依赖的A执行完B执行然后C执行时间上肯定是叠加的。
第三个例子
第一个例子中顺序必须是1-2-3因为他们之间是强依赖但是在第二个例子中步骤为什么必须是A1-A2-A3-B1-B2-B3-C1-C2-C3呢B1和A3之间是没有依赖关系的。这个时候我们的并发出现了步骤如下 这张图是什么意思呢其实就是在「爬取网页 A」这个过程进行到步骤 2 的时候程序空闲下来了这时我们让「爬取网页 B」的步骤 1 开始执行同样的「爬取网页 B」的步骤 1 执行完程序又空闲下来于是我们安排「爬取网页 C」开始执行。
可以看到仅仅是利用爬虫等待的时间爬虫的效率就提升了数倍当爬取的数据更大的时候爬虫的效率是不是更加的显著。
并发和多线程
并发的结果看起来确实很好但是前面例子三的步骤看起来很复杂我们实际编写代码的时候难道要考虑计算机将事情 A 做得怎么样了有没有空闲如果空闲就去做事情 B想想都头大。
这个时候多线程就派上用场了这个可是操作系统赋予的最强能力之一。
操作系统提供了两个东西进程和线程利用他们两个我们可以轻易的实现并发而不用去考虑上面头大的问题。
我们来看两个代码
import time
import requests# 假设我们要爬取 30 个网页
urls [https://wpblog.x0y1.com/?p34] * 30
session requests.Session()start time.time()results []
for url in urls:r session.get(url)results.append(r.text)end time.time()
print(花费, end-start, 秒)
然后我们把这个代码用多线程形式改写一下
import time
import requests
from concurrent import futures# 假设我们要爬取 30 个网页
urls [https://wpblog.x0y1.com/?p34] * 30
executor futures.ThreadPoolExecutor(max_workers5)
session requests.Session()start time.time()fs []
for url in urls:f executor.submit(session.get, url)fs.append(f)futures.wait(fs)
result [f.result().text for f in fs]
end time.time()
print(花费, end-start, 秒)
大家可以在自己电脑上运行下下面的运行时间比上面的运行时间缩短好几倍。
代码详解
针对上面改写的代码我们做个详细的分析解读
初始化一个线程池
# 导入 concurrent.futures 这个包
from concurrent import futures# 初始化一个线程池最大的同时任务数是 5
executor futures.ThreadPoolExecutor(max_workers5)
concurrent是python自带的库这库具有线程池和进程池、管理并行编程任务、处理非确定性的执行流程、进程、线程同步等功能。
线程 池限制了最多同时运行的线程数。比如说我们初始化一个最大任务数为5的线程池这样使我们提交了100个任务到这个池子里同时运行的也只有5个因此代码中max_workers5的作用就是这个。
提交任务到线程池
fs []
for url in urls:# 提交任务到线程池f executor.submit(session.get, url)fs.append(f)
executor是我们刚刚初始化的线程池调用了executor的submit()方法往里面提交任务。第一个参数session.get是提交要运行的函数第二个url是提交的函数运行时的参数。
executor.submit()方法会返回一个返回值其是一个future对象我们把他赋值给变量f。
future对象是什么
future 这个单词的原意是 未来。在并发编程的领域future 对象这个东西通常保存着函数调用完成时的结果。
我们结合实例再试着理解一遍。
比如在上面我们告诉线程池要调用 session.get 方法参数为 url。如果线程池还没满程序就启动一个线程开始执行它如果线程池满了就等待有任务完成被挪出线程池再把这个任务放到那个线程上运行。 但是我们不知道 session.get(url) 在多久之后被完成那我们要的结果保存在什么地方呢答案就是 future 对象。如果某一个任务已经完成那么通过这个任务被提交时返回给我们的 future 对象就可以拿到这个任务的结果。
等待代码全部完成
# 等待这些任务全部完成
futures.wait(fs)
fs 是保存了上面所有任务的 future 对象的列表futures.wait() 方法可以等待直到 fs 里面所有的 future 对象都有结果为止。
获取所有任务的结果
# 获取任务的结果
result [f.result().text for f in fs]
fs是保存了上面所有任务的future对象的列表我们遍历所有任务的future对象调用future对象的result()方法就能得到任务的结果。