百度怎么建网站,源码编程器下载,优书网怎么注册不了,女和女做网站图/文#xff1a;迷神我们做python爬虫#xff0c;通过requests抓取到内容就需要正则匹配#xff0c;或者其他解析库解析内容。很多可能和我一样的人#xff0c;都使用jquery的#xff0c;那用的还是非常爽的。而pyquery库就是jQuery的Python实现#xff0c;能够以jQuery…图/文迷神我们做python爬虫通过requests抓取到内容就需要正则匹配或者其他解析库解析内容。很多可能和我一样的人都使用jquery的那用的还是非常爽的。而pyquery库就是jQuery的Python实现能够以jQuery的语法来操作解析 HTML 文档易用性和解析速度都不错。虽然Beautiful Soup 中可以使用 CSS 选择器但是好像他的 CSS 选择器并没有想像中的强大PyQuery反而更优一些因此我们来说说Python爬虫神器PyQuery。PyQuery库官方文档官方文档https://pyquery.readthedocs.io/en/latest/PyPIhttps://pypi.org/project/pyquery/Githubhttps://github.com/gawel/pyquery1、PyQuery初始化内容PyQuery初始化有3种形式1.1、直接初始化requests返回的html内容from pyquery import PyQuery as pq#初始化为PyQuery对象doc pq(html)print(type(doc))print(doc)1.2、直接读取文件的形式#filename参数为html文件路径doc pq(filename test.html)print(type(doc))print(doc)1.3、读取网址的形式doc pq(url https://www.toutiao.com)print(type(doc))print(doc)2、常用CSS选择器pyquery强大的地方就是在于使用了类似jquery一样的选择进行网页节点解析。html Python 大法 好 获取id为object-1的标签print(doc(#object-1))#返回好#还可以print(doc(#container #object-1))获取class为object-1的标签print(doc(.object-1))#返回Python获取ul标签print(doc(ul))#返回Python大法好如果获取多个li可以遍历a doc(li)for item in a.items(): print(item)其他的我们还可以查找节点我们接着介绍一下常用的查找函数这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。find() 查找节点的所有子孙节点。children() 只查找子节点。parent() 查找父节点。parents() 查找祖先节点。siblings() 查找兄弟节点。3、获取标签的信息我们在定位到目标之后就需要获取标签的内容信息常用的有3.1、attr() 获取属性返回属性值object_2 doc.find(.object-2)print(object_2.attr(class))#返回object-23.2、text() 标签的文本 object_1 docs.find(.object-1)print(object_1.text())#返回Python当然pyquery还有很多比如remove去掉节点内容获取url网址的还可以自定义cookie和header等。Beautiful Soup 对新手比较友好pyquery对用过jquery的来说更简单更方便是一个非常不错的选择。好了就这么多啦我是迷神更多精彩python内容可以关注我哦有问题也可以评论哦。