爬虫-pyquery解析库

pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好

基本操作如下
引入头文件

from pyquery import PyQuery as pq

初始化PyQuery对象

  • 字符串初始化
doc = pq(html)
print(type(doc))
print(doc)
>>>
<class 'pyquery.pyquery.PyQuery'>
"""
html字符串内容
"""
  • html文件初始化
>doc = pq(filename='index.html')
#filename为html文件路径
  • 网址响应初始化
    pyquery可以对网址发起请求,并将请求返回的响应数据处理为PyQuery对象。
    他还有下列可选参数:
    • opener:
      作用是告诉pyquery用什么请求库对网址发起请求。默认调用urllib库,可以调用此参数改用selenium或者requests库,甚至自定义opener参数,添加想要的功能。
    • cookies:
      headers:
      如同requessts用法,在必要的时候伪装浏览器。
doc = pq(url='https://www.baidu.com')

CSS选择器

在进行初始化以后,只需要对PyQuery对象按照Jquery语法进行选择和各种操作,Jquery语法之前记录过这里就不再赘述了——>Jquery篇

查找标签

除了用Jquery语法选择标签外,pyquery还有下述方法可用:

  • doc.find('#container')
    查找id=container的标签
  • doc.children()
    查找当前doc的子辈标签
  • doc.parent()
    查找当前doc的父辈标签
  • doc.siblings()
    查找当前doc的兄弟标签
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容