机械配件东莞网站建设,做网站经常用的字体有哪些,上海专业网站建设平台,宁波seo公司推荐Scrapy数据解析(CSS、XPath)
在Scrapy中原有的解析语法与原来的有点略微的区别 目录 Scrapy数据解析(CSS、XPath)CSS解析器XPath解析器 CSS解析器
示例#xff1a;
response.css(a)返回的是selector对象response.css(a).extract()返回的是a标签对象response.css(a::text).…Scrapy数据解析(CSS、XPath)
在Scrapy中原有的解析语法与原来的有点略微的区别 目录 Scrapy数据解析(CSS、XPath)CSS解析器XPath解析器 CSS解析器
示例
response.css(a)返回的是selector对象response.css(a).extract()返回的是a标签对象response.css(a::text).extract_first()返回的是第一个a标签中文本的值response.css(a::attr(href)).extract_first()返回的是第一个a标签中href属性的值response.css(a[href*image]::attr(href)).extract()返回所有a标签中href属性包含image的值response.css(a[href*image] img::attr(src)).extract()返回所有a标签下image标签的src属性
基本语法
语法说明*选择所有节点div h1::textdiv下的h1标签的文本#container选择id为container的节点.container选择所有class包含container的节点div,p选择所有 div 元素和所有 p 元素li a选取所有li 下所有a节点ul p选取ul后面的第一个p元素div#container ul选取id为container的div的第一个ul子元素ul ~p选取与ul相邻的所有p元素a[title]选取所有有title属性的a元素a[href”http://baidu.com”]选取所有href属性为http://baidu.com的a元素a[href*”baidu”]选取所有href属性值中包含baidu的a元素a[href^”http”]选取所有href属性值中以http开头的a元素a[href$”.jpg”]选取所有href属性值中以.jpg结尾的a元素input[typeradio]:checked选择选中的radio的元素div:not(#container)选取所有id为非container 的div属性li:nth-child(3)选取第三个li元素li:nth-child(2n)选取第偶数个li元素a::attr(href)选取a标签的href属性a::text选取a标签下的文本
XPath解析器
示例
response.xpath(//a)返回所有a标签的节点对象response.xpath(//a).extract()返回所有a标签的HTML内容response.xpath(//a/text()).extract_first()返回第一个a标签中的文本内容。response.xpath(//a/href).extract_first()返回第一个a标签中的href属性值response.xpath(//a[contains(href,image)]/href).extract()返回所有href属性中包含image的a标签的href属性值response.xpath(//a[contains(href,image)]/img/src).extract()返回所有href属性中包含image的a标签下的img标签的src属性值
基本语法
语法说明artical选取所有artical元素的子节点/artical选取根元素artical./artical选取当前元素下的artical…/artical选取父元素下的articalartical/a选取所有属于artical的子元素a元素//div选取所有div 子元素无论div在任何地方artical//div选取所有属于artical的div 元素,无论div元素在artical的任何位置//class选取所有class属性a/href选取a标签的href属性a/text()选取a标签下的文本string(.)解析出当前节点下所有文字string(…)解析出父节点下所有文字