pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好
基本操作如下
引入头文件
from pyquery import PyQuery as pq
初始化PyQuery对象
- 字符串初始化
doc = pq(html)
print(type(doc))
print(doc)
>>>
<class 'pyquery.pyquery.PyQuery'>
"""
html字符串内容
"""
- html文件初始化
>doc = pq(filename='index.html')
#filename为html文件路径
- 网址响应初始化
pyquery可以对网址发起请求,并将请求返回的响应数据处理为PyQuery对象。
他还有下列可选参数:- opener:
作用是告诉pyquery用什么请求库对网址发起请求。默认调用urllib库,可以调用此参数改用selenium或者requests库,甚至自定义opener参数,添加想要的功能。 - cookies:
headers:
如同requessts用法,在必要的时候伪装浏览器。
- opener:
doc = pq(url='https://www.baidu.com')
CSS选择器
在进行初始化以后,只需要对PyQuery对象按照Jquery语法进行选择和各种操作,Jquery语法之前记录过这里就不再赘述了——>Jquery篇
查找标签
除了用Jquery语法选择标签外,pyquery还有下述方法可用:
- doc.find('#container')
查找id=container的标签 - doc.children()
查找当前doc的子辈标签 - doc.parent()
查找当前doc的父辈标签 - doc.siblings()
查找当前doc的兄弟标签