当前位置: 首页 > news >正文

珠海企业网站建设报价高端自适应网站设计

珠海企业网站建设报价,高端自适应网站设计,依安县建设网站,招聘网站建设初衷Python代理IP爬虫是一种可以让爬虫拥有更多网络访问权限的技术。代理IP的作用是可以为爬虫提供多个IP地址#xff0c;从而加快其爬取数据的速度#xff0c;同时也可以避免因为访问频率过高而被网站封禁的问题。本文将介绍如何使用Python实现代理IP的爬取和使用。 一、代理IP的…Python代理IP爬虫是一种可以让爬虫拥有更多网络访问权限的技术。代理IP的作用是可以为爬虫提供多个IP地址从而加快其爬取数据的速度同时也可以避免因为访问频率过高而被网站封禁的问题。本文将介绍如何使用Python实现代理IP的爬取和使用。 一、代理IP的获取 首先我们需要找到一个可用的代理IP源。这里我们以站大爷代理ip为例站大爷代理提供了收费代理和普通免费的代理IP使用起来非常方便。 站大爷代理ip的API接口地址https://www.zdaye.com/free/inha/1/ 通过请求上面的API接口我们可以获取到一页代理IP信息包括IP地址和端口号。我们可以通过requests库的get方法获取到API返回的信息示例代码如下 import requestsurl https://www.zdaye.com/free/inha/1/ response requests.get(url) print(response.text) 上面代码执行后我们可以看到获取到的代理IP信息。但是我们需要对返回值进行解析只提取出有用的IP地址和端口。 import requests from bs4 import BeautifulSoupurl https://www.zdaye.com/free/inha/1/ response requests.get(url) soup BeautifulSoup(response.text, html.parser)proxies [] for tr in soup.find_all(tr)[1:]:tds tr.find_all(td)proxy tds[0].text : tds[1].textproxies.append(proxy)print(proxies)上面代码中我们使用BeautifulSoup库对返回的HTML文本进行解析获取到所有的tr标签然后通过循环遍历每一个tr标签提取出其中的IP地址和端口信息并将其保存到一个列表中。 二、代理IP的验证 获取到代理IP后我们需要进行测试判断这些代理IP是否可用。这里我们通过requests库的get方法进行测试如果返回200则说明该代理IP可用。我们使用代理IP的方法是通过向requests.get方法传入proxies参数来实现示例代码如下 import requestsurl http://www.baidu.comproxies {http: http://222.74.237.246:808,https: https://222.74.237.246:808, } try:response requests.get(url, proxiesproxies, timeout10)if response.status_code 200:print(代理IP可用, proxies) except:print(代理IP不可用, proxies)在上面的代码中我们向http://www.baidu.com发送请求并使用了一个代理IP进行访问。如果返回HTTP状态码为200则说明代理IP可用否则说明不可用。 如果我们需要验证每一个代理IP那么就需要对上面的代码进行循环遍历例如 import requests from bs4 import BeautifulSoupurl https://www.zdaye.com/free/inha/1/response requests.get(url) soup BeautifulSoup(response.text, html.parser)proxies [] for tr in soup.find_all(tr)[1:]:tds tr.find_all(td)proxy tds[0].text : tds[1].textproxies.append(proxy)for proxy in proxies:proxies_dict {http: http:// proxy,https: https:// proxy,}try:response requests.get(url, proxiesproxies_dict, timeout10)if response.status_code 200:print(代理IP可用, proxies_dict)except:print(代理IP不可用, proxies_dict)上面的循环代码中我们先遍历了所有的代理IP然后对每一个代理IP进行验证。如果该代理IP可用则打印出来否则输出不可用信息。 三、代理IP的测试 获取到可用的代理IP后我们需要对其进行进一步的测试确保其真正可用然后再进行爬取。我们可以使用百度、360搜索等常用搜索引擎进行测试。在这里我们以百度为例测试代理IP是否真正可用。 import requestsurl http://www.baidu.comproxies {http: http://222.74.237.246:808,https: https://222.74.237.246:808, } try:response requests.get(url, proxiesproxies, timeout10)if response.status_code 200:if 百度一下 in response.text:print(代理IP可用, proxies)else:print(代理IP不可用, proxies)else:print(代理IP不可用, proxies) except:print(代理IP不可用, proxies) 上面代码中我们向百度发送了一个请求并通过判断返回的HTML页面中是否含有‘百度一下’这个关键字来验证代理IP是否真正可用。 四、代理IP的使用 当我们获取到了可用的代理IP后我们就可以使用它们来进行爬取了。在使用代理IP进行爬取时我们需要将其作为proxies参数传入requests.get方法中示例代码如下 import requestsurl http://www.baidu.comproxies {http: http://222.74.201.49:9999,https: https://222.74.201.49:9999, } response requests.get(url, proxiesproxies) print(response.text) 上面代码中我们使用了一个代理IP进行访问百度网站并将其作为proxies参数传入requests.get方法中。如果该代理IP可用则请求将会使用该代理IP进行访问。 五、完整代码 下面是一份完整的代码包括代理IP的获取、验证、测试和使用大家可以参考一下 import requests from bs4 import BeautifulSoup# 1. 获取代理IP列表 def get_proxy_list():# 构造请求头模拟浏览器请求headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36}# 请求代理IP网页url http://www.zdaye.com/response requests.get(url, headersheaders)# 解析网页获取代理IP列表soup BeautifulSoup(response.text, html.parser)proxy_list []table soup.find(table, {id: ip_list})for tr in table.find_all(tr):td_list tr.find_all(td)if len(td_list) 0:ip td_list[1].text.strip()port td_list[2].text.strip()type td_list[5].text.strip()proxy_list.append({ip: ip,port: port,type: type})return proxy_list# 2. 验证代理IP可用性 def verify_proxy(proxy):# 构造请求头模拟浏览器请求headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36}# 请求目标网页并判断响应码url http://www.baidu.comtry:response requests.get(url, headersheaders, proxiesproxy, timeout5)if response.status_code 200:return Trueelse:return Falseexcept:return False# 3. 测试代理IP列表可用性 def test_proxy_list(proxy_list):valid_proxy_list []for proxy in proxy_list:if verify_proxy(proxy):valid_proxy_list.append(proxy)return valid_proxy_list# 4. 使用代理IP发送请求 def send_request(url, headers, proxy):# 发送请求并返回响应结果response requests.get(url, headersheaders, proxiesproxy)return response.text# 程序入口 if __name__ __main__:# 获取代理IP列表proxy_list get_proxy_list()# 验证代理IP可用性valid_proxy_list test_proxy_list(proxy_list)# 输出可用代理IPprint(有效代理IP列表)for proxy in valid_proxy_list:print(proxy)# 使用代理IP发送请求url http://www.baidu.comheaders {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36}proxy {http: http:// valid_proxy_list[0][ip] : valid_proxy_list[0][port],https: https:// valid_proxy_list[0][ip] : valid_proxy_list[0][port]}response send_request(url, headers, proxy)print(response) 在上面的代码中我们首先通过爬取西刺代理网站获取代理IP列表。然后我们对每一个代理IP进行验证判断其是否可用并将可用的代理IP存入一个列表中。最后我们选择一个可用的代理IP并使用该代理IP发送请求。 六、总结 本文介绍了代理IP的基本概念、免费代理IP获取方法、Python使用代理IP的方法及示例代码以及代理IP使用的注意事项。希望能够对爬虫的使用者有所帮助。
http://www.zqtcl.cn/news/379987/

相关文章:

  • 做网站哪些公司专业做app软件开发公司
  • 蒙特网站建设湖北省建设厅网站上岗证查询
  • 宁波网站建设 联系哪家电子商务网站建设过程范文
  • 南宁商城网站建设网站建设的需求文档
  • dedeampz 部署wordpress 网站访问慢如何评价网站是否做的好处
  • 怎样建设个人影视网站设计学专业
  • 没有公司 接单做网站网站建设加盟合作
  • 如何将域名和网站绑定做网站找投资人
  • 网站开发 平台WordPress首页可见
  • 沧州做网站费用打开上海发布
  • 重庆潼南网站建设公司电话网站能调用一些字体
  • 摄影网站设计素材做彩票网站电话多少
  • 开网站公司企业管理网课
  • 相城高端网站建设施工建设集团网站
  • .电子商务网站的开发原则包括网络服务示范区创建情况
  • 网站如何做权重php做网站登陆验证
  • 昆山制造网站的地方网站建设 有聊天工具的吗
  • 自己做网站制作需要多少钱如何免费注册网站域名
  • 如何做网站美化怎样写网站文案
  • 做网站排名的wordpress 调整 行距
  • 三亚文明城市建设服务中心报名网站房地产活动策划网站
  • 休闲食品网站建设规划书常德做网站专业公司
  • 做美工好的网站网页设计排版布局
  • 网站建设公司合同模板下载wordpress微信公众平台开发教程
  • 快速wordpress 建网站免费代理游戏
  • 网站模板 寻模板大气宽屏网站模板企业源码带后台
  • 做图片推广的网站威海高端网站建设
  • 台州网站公司建站网站首页模板图片
  • 网站建设本科毕业设计论文网址
  • 泰州企业建站程序乐清网站建设公司