当前位置: 首页 > news >正文

福州网站建设咨询数字化展厅设计方案

福州网站建设咨询,数字化展厅设计方案,WordPress自动发英文文章,如何做地方网站目标 在实际开发过程中#xff0c;我们所需要的数据往往需要通过多个页面的数据汇总得到#xff0c;通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看#xff0c;实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及…目标 在实际开发过程中我们所需要的数据往往需要通过多个页面的数据汇总得到通过列表获取到的数据只有简单的介绍。站在Scrapy框架的角度来看实际上就是考虑如何处理一个item包含多级页面数据的问题。本文将以获取叶子猪网站的手游排行榜及手游详情为学习案例来解决这个问题。 版本 Scrapy 2.12.0 实战 第一步搭建Scrapy框架。略过如果不会搭建的通过可以看我之前的Scrapy入门文章。 第二步通过打开目标网页查看网页代码我们可以的到手游排行榜的基础信息这里我们只获取标题。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt) 第三步进入二级页面获取描述信息。此时日志打印可以看到单个游戏的信息并没有组合起来。 import scrapyclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()print(alt)# 二级页面的urlinfo_url a.xpath(./href).get()print(f二级页面的url是{info_url})meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)for p in p_list:contentp.xpath(string(.)).get()print(content) 第四步组合item数据。scrapy.Request方法中的meta参数很重要它实现了深度爬取。比如在爬取多层级页面时使用 meta 参数传递父页面的信息到子页面。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content) 第五步创建item属性。 class YezizhuItem(scrapy.Item):alt scrapy.Field()content scrapy.Field() 第六步传递item属性值并将item对象传递给管道。 import scrapyfrom yezizhu.items import YezizhuItemclass SytopSpider(scrapy.Spider):name sytopallowed_domains [sy.yzz.cn]start_urls [http://sy.yzz.cn/news/14324-1.shtml]def parse(self, response):a_list response.xpath(//ul[classitem-pt-list]/li/div[1]/a)for a in a_list:# 标题alt a.xpath(./img/alt).get()# 二级页面的urlinfo_url a.xpath(./href).get()meta {alt: alt}yield scrapy.Request(urlinfo_url, callbackself.parse_info,metameta)def parse_info(self, response):p_list response.xpath(//div[classcontent]//p)print(start)alt response.meta[alt]print(alt)contentfor p in p_list:contentcontent\np.xpath(string(.)).get()print(content)top_contentYezizhuItem(altalt, contentcontent)yield top_content 第七步在settings.py文件中开启管道。 ITEM_PIPELINES {yezizhu.pipelines.YezizhuPipeline: 300, } 第八步在管道中设置下载数据并启动项目。 import jsonclass YezizhuPipeline:# 在爬虫文件开始之前就执行的方法def open_spider(self, spider):self.fp open(C:\\Users\\Administrator\\Desktop\\test\\a.json, w, encodingutf-8)self.fp.write([)def process_item(self, item, spider):line json.dumps(dict(item), ensure_asciiFalse) ,\nself.fp.write(line)return item# 在爬虫文件执行之后再执行的方法def close_spider(self, spider):# 删除最后一个多余的逗号并关闭 JSON 数组self.fp.seek(self.fp.tell() - 3, 0)self.fp.write(\n])self.fp.close()
http://www.zqtcl.cn/news/691005/

相关文章:

  • wordpress托管建站网站页面布局和样式设计
  • 建站平台江苏省建设监理协会网站
  • 安徽网站开发培训价格百度seo排名公司
  • 青海网站建设费用oa系统和erp系统区别
  • 个人做网站的注意事项网站开发工程师6
  • 镇江百度网站建设北京网站开发价格
  • 大岭山镇仿做网站推广计划表格
  • 网站备案地址不是我的地址怎么办建设银行网站查询业务收费吗
  • 电商网站设计内容网站编辑及seo招聘
  • 用什么网站开发浙江省住房和建设厅网站
  • 站长工具seo优化建议微信小程序线上商城怎么申请
  • 建筑网站开发设计做网站的公司msgg
  • 设计师个人网站模板网站的尾页要怎么做
  • 营销型网站建设风格设定包括哪些方面wordpress企业魔板
  • 怎样做淘客网站做绿色产品的网站
  • 关于网站建设的通知wordpress点注册后一直不出来
  • 科技公司网站设计方案开发公司绩效考核
  • 深圳网站建设推进旗县政务网站建设工作方案
  • 南宁 网站建设网站集约建设
  • 做网站编辑好吗吉林省四平市
  • 石家庄网站制作最新军事新闻最新消息视频
  • 高端品牌网站设计企业网站建设wordpress文章前阅读
  • 广州做网站星珀各电商网站的特点
  • 西安模板做网站广州微信网站建设平台
  • 网站开发硬件工程师待遇微信商城有哪些第三方平台
  • 基于响应式设计的网站建设软件开发项目甘特图
  • 绍兴兴住房和城乡建设局网站网站更换名称需要重新备案吗
  • 跨境电商网站开发文档网站建设费可摊几年
  • 怎样建设一个游戏网站随便玩玩在线制作网站
  • 免费的成品网站用织梦模板做网站