登录注册写文章

爬虫-pyquery解析库

爬虫-pyquery解析库

pyquery库是jQuery的Python实现，能够以jQuery的语法来操作解析 HTML 文档，易用性和解析速度都很好

基本操作如下
引入头文件

from pyquery import PyQuery as pq

初始化PyQuery对象

字符串初始化

doc = pq(html)
print(type(doc))
print(doc)
>>>
<class 'pyquery.pyquery.PyQuery'>
"""
html字符串内容
"""

html文件初始化

>doc = pq(filename='index.html')
#filename为html文件路径

网址响应初始化
pyquery可以对网址发起请求，并将请求返回的响应数据处理为PyQuery对象。
他还有下列可选参数：
- opener：
  作用是告诉pyquery用什么请求库对网址发起请求。默认调用urllib库，可以调用此参数改用selenium或者requests库，甚至自定义opener参数，添加想要的功能。
- cookies：
  headers：
  如同requessts用法，在必要的时候伪装浏览器。

doc = pq(url='https://www.baidu.com')

CSS选择器

在进行初始化以后，只需要对PyQuery对象按照Jquery语法进行选择和各种操作，Jquery语法之前记录过这里就不再赘述了——>Jquery篇

查找标签

除了用Jquery语法选择标签外，pyquery还有下述方法可用：

doc.find('#container')
查找id=container的标签
doc.children()
查找当前doc的子辈标签
doc.parent()
查找当前doc的父辈标签
doc.siblings()
查找当前doc的兄弟标签

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Python网络爬虫神器PyQuery的使用方法
前言 pyquery库是jQuery的Python实现，能够以jQuery的语法来操作解析 HTML 文档，易用性...
我为峰2014阅读 35,529评论 3赞 20
PyQuery库的基本使用
PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQu...
小董不太懂阅读 1,131评论 0赞 2

前端面试题及答案汇总
请参看我github中的wiki，不定期更新。https://github.com/ivonzhang/Front...
zhangivon阅读 7,792评论 2赞 19
【小白学爬虫连载（11）】--pyquery库详解
欢迎关注哈希大数据公众号【哈希大数据】前面的分享如何获取免费高匿代理IP代码中我们用到了pyquery这个解析库...
哈希大数据阅读 563评论 0赞 1
玛雅历KIN 189 共鸣的红月
KIN 189 共鸣的红月我在流动中净化、清理，我愿意成为实现生命的通道红月是代表着情绪的力量，大多数人生活过...
佛山欣然阅读 1,415评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文