当前位置: 首页 > news >正文

重庆企业网站推广公司制作网页的步骤搜集素材

重庆企业网站推广公司,制作网页的步骤搜集素材,太原seo外包公司,设计工作室发展前景一、基础知识 1. Spiders 文件夹 用于编写爬虫规则#xff0c;可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则#xff0c;所以建议一个爬虫规则用一个文件表示#xff0c;这样便于维护和管理 2. 代码 # -*- coding: utf-8 -*- import s…一、基础知识   1. Spiders 文件夹    用于编写爬虫规则可以在已有的___init__.py文件中编写具体的爬虫规则但是实际开发中可能有多个爬虫规则所以建议一个爬虫规则用一个文件表示这样便于维护和管理 2. 代码 # -*- coding: utf-8 -*- import scrapy from baidu.items import BaiduItem from scrapy.selector import Selector #自带的数据清洗模块 from scrapy.spiders import Spiderclass SpiderSpodersSpider(scrapy.Spider):name Spider_spoders#必须设置而且是唯一的命名用于运行爬虫allowed_domains [baidu.com]start_urls [http://baidu.com/list?cid110,http://baidu.com/list?cid110102]#函数parse处理相应内容函数名不能更改def parse(self, response):selSelector(response)#将相应内容生成selector用于数据的清洗items[]itemBaiduItem()#定义BaiduItem对象titlesel.xpath(//div[classquestion-title]/a/text()).extract()for i in title:items.append(i)items[TitleName]itemsreturn item  代码说明 1 属性name不能为空是程序运行入口如果有多个爬虫规则那么每个规则的属性name不能重复 2 Allowed_domains是设置允许访问的域名如果为空就说明对域名不做访问限制 3 Start_urls用于设置爬取对象的URL程序运行时会对start_urls遍历处理 4 类方法parse()用于处理网站的相应内容如果爬虫引擎是Spider方法名就不能更改 5 爬虫规则以类为实现单位并继承父类SpiderSpider是Scrapy的爬虫引擎 3. spiders介绍   (1) Spider是定义如何抓取某个网站的类包括如何执行抓取访问URL以及如何从页面中提取结构化数据抓取数据。Spider是开发者自定义的类用于为特定的网抓取和解析页面。   2Spider执行周期 抓取第一个URL的初始请求然后指定一个回调函数从请求的响应来调用回调函数请求链接通过调用start_requests()方法parse方法作为回调函数处理请求链接返回的请求结果在回调函数中主要解析响应内容并将解析后的数据存储在item对象中在回调函数中通常选用选择器beautifulsoup、lxml解析页面内容并将解析的数据存储在item对象中。4 Spider的种类  1Scrpay.spiders.Spider:最简单的spider类其他的类是继承该类不提供任何的特殊功能只提供一个默认的start_requests()方法请求从start_urls开始Spider发送请求并使用函数parse处理每个响应内容。  2Scrapy.spiders.CrawlSpider:抓取常规网站最常用的spider提供了一个方便机制可通过定义一组规则来跟踪URL适合全站数据爬取和通用的爬虫开发。除了拥有scrapy.spider.Spider全部属性之外还有特定属性rules和parse_start_url方法转载于:https://www.cnblogs.com/luoyw/p/10587241.html
http://www.zqtcl.cn/news/489248/

相关文章:

  • 用什么框架做网站快哪个网站可以自己做名片
  • 免费网站建设ppt模板下载网站设计与程序专业
  • o2o网站设计方案高端定制网站开发设计建站流程
  • 杭州建设公司网站石家庄做网站比较好的公司
  • 英文网站支付怎么做产品做推广都有那些网站
  • 自己做的网站怎么加入微信支付综合性门户网站列举
  • 哪个网站 可以做快递单录入网站怎么做抽奖
  • 网站设计培训班网站域名费用怎么做分录
  • 济南做网站哪里好惠州附近公司做网站建设多少钱
  • 使用oss做静态网站网站广告牌制作教程
  • 外贸看的英文网站公众号模板编辑器
  • 做网站的数据库的步骤阅读网站模板下载
  • 建设网站要钱吗个人养老金制度是什么意思
  • 做h5的网站页面设计软文素材网站
  • 黄冈网站推广软件费用是多少手机网站弹出层插件有哪些
  • wordpress文章链接怎么改怎么优化关键词排名优化
  • 专业做包包的网站好产品网站做营销推广
  • 网站刚建好怎么做能让百度收录湖北黄石网站建设
  • 网站建设拾金手指下拉二一wordpress 插件破解
  • 天津做网站外包公司有哪些美橙互联网站
  • 石家庄网站建设蓝点办公室装修工程
  • 申请网站空间就是申请域名建设机械网站咨询
  • 做美食网站有哪些网站怎么做自响应
  • 衡水网站建设维护宝安官网网站建设比较好的
  • 网站建设的审批重庆建设工程信息网30系统
  • 泉州软件开发培训机构怎么做网站内部链接的优化
  • 网站定位是什么中国it外包公司排名
  • 洛阳微信平台网站建设网站成功案例分析
  • 网站建设在淘宝怎么分类深圳软件开发招聘信息
  • .net如何做网站个人网站的制作