美团网站界面设计,dw网页设计案例,个人备案的网站可以做宣传,北京最新消息发布1、引言Scrapy框架结构清晰#xff0c;基于twisted的异步架构可以充分利用计算机资源#xff0c;是做爬虫必备基础#xff0c;本文将对Scrapy的安装作介绍。2、安装lxml2.1 下载地址#xff1a;https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 选择对应python3.5…1、引言Scrapy框架结构清晰基于twisted的异步架构可以充分利用计算机资源是做爬虫必备基础本文将对Scrapy的安装作介绍。2、安装lxml2.1 下载地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 选择对应python3.5的lxml库2.2 如果pip的版本过低先升级pippython -m pip install -U pip2.3 安装lxml库(先将下载的库文件copy到python的安装目录按住shift键并鼠标右击选择“在此处打开命令窗口”)pip install lxml-4.1.1-cp35-cp35m-win_amd64.whl看到出现successfully等字样说明按章成功。3、 安装Twisted库3.1 下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 选择对应python3.5的库文件3.2 安装pip install Twisted-17.9.0-cp35-cp35m-win_amd64.whl看到出现successfully等字样说明按章成功。Note部分机器可能安装失败可以尝试将 Twisted-17.9.0-cp35-cp35m-win_amd64.whl文件移动到 $python/Scripts/ 目录下重新安装。4、安装Scrapytwisted库安装成功后安装scrapy就简单了在命令提示符窗口直接输入命令pip install scrapy看到出现successfully等字样说明按章成功。5、Scrapy测试5.1 新建项目先新建一个Scrapy爬虫项目选择python的工作目录(我的是H:\PycharmProjects 然后安装Shift键并鼠标右键选择“在此处打开命令窗口”)然后输入命令scrapy startproject allister对应目录会生成目录allister文件夹目录结构如下└── allister├── allister│ ├── __init__.py│ ├── items.py│ ├── pipelines.py│ ├── settings.py│ └── spiders└── scrapy.cfg简单介绍个文件的作用# -----------------------------------------------scrapy.cfg项目的配置文件allister/ : 项目的python模块将会从这里引用代码allister/items.py:项目的items文件allister/pipelines.py:项目的pipelines文件allister/settings.py 项目的设置文件allister/spiders : 存储爬虫的目录5.2 修改allister/items.py文件# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass AllisterItem(scrapy.Item):name scrapy.Field()level scrapy.Field()info scrapy.Field()5.3 编写文件 AllisterSpider.py# !/usr/bin/env python# -*- coding: utf-8 -*-# File : AllisterSpider.py# Author: Allister.Liu# Date : 2018/1/18# Desc :import scrapyfrom allister.items import AllisterItemclass ItcastSpider(scrapy.Spider):name ic2callowed_domains [http://www.itcast.cn]start_urls [http://www.itcast.cn/channel/teacher.shtml#ac]def parse(self, response):items []for site in response.xpath(//div[classli_txt]):item AllisterItem()t_name site.xpath(h3/text())t_level site.xpath(h4/text())t_desc site.xpath(p/text())unicode_teacher_name t_name.extract_first().strip()unicode_teacher_level t_level.extract_first().strip()unicode_teacher_info t_desc.extract_first().strip()item[name] unicode_teacher_nameitem[level] unicode_teacher_levelitem[info] unicode_teacher_infoyield item编写完成后复制至项目的 \allister\spiders目录下cmd选择项目根目录输入以下命令scrapy crawl ic2c -o itcast_teachers.json -t json抓取的数据将以json的格式存储在ic2c_infos.json文件中如果出现如下错误请看对应解决办法