当前位置: 首页 > news >正文

地方门户网站运营方案企业成本解决方案

地方门户网站运营方案,企业成本解决方案,网页视频怎么下载ios,如何确保网站安全题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据#xff0c;需要访问大量的网页才能够完成任务。 这里有一个网站#xff0c;还是求所有数字的和#xff0c;只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import reques…题目 链接 爬虫往往不能在一个页面里面获取全部想要的数据需要访问大量的网页才能够完成任务。 这里有一个网站还是求所有数字的和只是这次分了1000页。 思路 找到调用接口 可以看到后面有个参数page来控制页码 代码实现 import requests import reurl http://www.glidedsky.com/level/web/crawler-basic-2headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }res 0 for i in range(1, 1001):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)for n in n_list:res int(n)print(fResult: {res})使用多线程实现更快爬取 import requests import re import threadingurl http://www.glidedsky.com/level/web/crawler-basic-2 total_threads 10 # 设置线程数量 lock threading.Lock() # 创建一个锁用于线程间的数据同步 res 0def worker(thread_id):global resfor i in range(thread_id, 1001, total_threads):temp_url url ?page str(i)response requests.get(temp_url, headersheaders)html response.textpattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)with lock:for n in n_list:res int(n)threads [] headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }# 创建并启动线程 for i in range(total_threads):thread threading.Thread(targetworker, args(i,))thread.start()threads.append(thread)# 等待所有线程执行完成 for thread in threads:thread.join()print(fResult: {res})使用异步函数 import aiohttp import asyncio import reurl http://www.glidedsky.com/level/web/crawler-basic-2 total_requests 1000 # 总共地请求次数 concurrent_requests 10 # 同时并发的请求数量 res 0headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.54,Cookie: }async def fetch_url(session, temp_url):async with session.get(temp_url, headersheaders) as response:html await response.text()pattern re.compile(div classcol-md-1.*?(\d).*?/div, re.S)n_list re.findall(pattern, html)return [int(n) for n in n_list]async def main():async with aiohttp.ClientSession() as session:tasks []for i in range(1, total_requests 1):temp_url url ?page str(i)tasks.append(fetch_url(session, temp_url))if len(tasks) concurrent_requests or i total_requests:results await asyncio.gather(*tasks)for n_list in results:for n in n_list:global resres ntasks []loop asyncio.get_event_loop() loop.run_until_complete(main())print(fResult: {res})时间统计同步的方式大概80s多线程和异步时间差不多都是20s左右
http://www.zqtcl.cn/news/585281/

相关文章:

  • 花都区水务建设管理中心官方网站怎么样才能搜索到自己做的网站
  • dedecms景区网站模板wordpress显示手动摘要
  • 备案网站免网上海网站建设机构
  • 模板建网站哪个品牌好网站制作排名
  • 网站开发咨询企业排名查询
  • 东莞做网站注意事项坪山网站建设方案
  • 网站文章页图片不显示图片手机设计
  • 公司网站版面怎么设计湖南做网站 就问磐石网络专业
  • 描述网站开发的广告词黄页网络的推广
  • 打开官方网站广告平面设计好学吗
  • 建设银行观澜支行网站做网站公司汉狮网络
  • 荆州学校网站建设seo专业培训机构
  • 网站制作上网建站程序的价钱
  • 阿里巴巴网站建设规划24小时学会网站建设pdf
  • wordpress建站以后网络公司注册资金多少
  • wordpress下载站模板优秀网站开发公司
  • ppt模板免费下载完整版免费网站微网站开发商
  • 网站建设前的分析第一小节内容wordpress自带主题下载失败
  • 深圳微信网站设计网站建设设计制作外包
  • 做数模必逛的网站wordpress 培训 主题
  • 开发网站语言天元建设集团有限公司电话
  • 兼职做网站访问量和数据关于外贸公司的网站模板
  • 旅游网站设计与实现软件定制报价单
  • 上海专业网站建站公网站开发人员
  • 淄博网站建设公司有几家网络培训平台下载
  • 优秀网站展示仲恺做网站
  • 达州做淘宝网站制作3d动画的软件
  • 服务器主机搭建网站wordpress 隐私设置
  • 专业的网站制作公司wordpress 网页模板
  • 中国建设人才服务信息网是什么网站深圳居家办公最新通知