PyQuery 简单使用

我这东一棒槌西一榔头的学着爬虫🕷,想到哪就写到哪,不知道啥时候能精通,好了不废话了,介绍PyQuery,以下简称pq

由于BeautifulSoup的语法较为难记,对正则的掌握需要一定的要求,今天介绍另外一个网页解析工具pq,据介绍其用法与jQuery几乎完全一样,如果你懂jq,基本可以兑pq无缝对接的学习

安装

pip3 install pyquery

具体用法

0. 导包

from pyquery import PyQuery as pq

1. 初始化

  • 字符串初始化
html = '''
    <div id="main">
      <ul id="outer">
        <li class="item0">项目1</li>
        <li class="itemn1"><a href="1.html">项目2</a></li>
        <li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
        <li class="itemn1 active"><a href="3.html">项目4</a></li>
        <li class="item0"><a href="4.html">项目5</a></li>
      </ul>
    </div>
'''
# 字符串初始化
def init_string():
    doc = pq(html)
    print(doc("li"))

打印结果

      <li class="item0">项目1</li>
      <li class="itemn1"><a href="1.html">项目2</a></li>
      <li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
      <li class="itemn1 active"><a href="3.html">项目4</a></li>
      <li class="item0"><a href="4.html">项目5</a></li>
  • url 初始化
def init_url():
    doc = pq("http://wwww.baidu.com")
    print(doc("head"))

打印结果

<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8"/>
<meta http-equiv="X-UA-Compatible" content="IE=Edge"/>
<meta content="always" name="referrer"/>
<link rel="stylesheet" type="text/css" href="http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css"/>
<title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title>
</head> 
  • 文件初始化

将文件路径传入

def init_filename(name):
    doc = pq(filename= '/Users/xxxx/Desktop/a.html')
    print(doc("li"))

2.css 选择器

当然我对CSS选择器也不是很懂,查了一下资料,暂时当做一种规范写法吧

 doc = pq("http://wwww.baidu.com")
 print(type(doc))

通过打印doc的类型,返回类型是
<class 'pyquery.pyquery.PyQuery'>,而且在以下介绍的各个筛选方法中每一次筛选都是返回一个这样类型的对象,所以是可以通过传入选择器参数,不断的去筛选想要的结果,然后可以类比jQuery的css选择器,通过doc(参数)筛选需要的内容,规则如下

  • 通过id筛选: #id
  • 通过class选择:.class名
  • 通过元素选择:元素名
  • 层级关系: 如果同时写以上几种筛选条件
    • 并用空格分隔条件,表示在每一层筛选条件之内进行筛选,但是不仅仅是父子关系,只要满足在根节点一下的所有的子孙节点均会被筛选出来
    • 如果不用空格分割,表示在几种条件同事满足
  • 例子

doc("#outer .item0")

<li class="item0">项目1</li>
      <li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
      <li class="item0"><a href="4.html">项目5</a></li>

表示在id 为outer的元素的子元素class为item0元素

doc(".item0.active")

<li class="item0 active">
<a href="2.html">
<span class="bold">
项目3
</span>
</a>
</li>

表示class 是item0 并且class为active的元素

3.元素查找

  • 子元素:find & children
  • find:查找所有符合元素的子元素,包括子元素的子元素,子子孙孙无穷尽也
  • children:直接子元素
  • 举个🌰,看看区别
def find_element():
    doc = pq(html)
    print("find---", doc.find("li"))
    print("children---", doc.children("li"))

打印结果

find--- <li class="item0">项目1</li> 
        <li class="itemn1"><a href="1.html">项目2</a></li> 
        <li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
        <li class="itetive"><a href="3.html">项目4</a></li>
        <li class="item0"><a href="4.html">项目5</a></li>
children--- 

解析:find就不用解释了,由于直接子元素中没有li元素,所以打印为空

  • 父元素:parent & parents
  • parent:直接父节点,返回最多一个值
  • parents:返回筛选点的之上层次的每一层的父节点
  • 举个🌰,看看区别:
def find_parent():
    doc = pq(html)
    print("parent --", doc("li.item0").parent())
    print("parentS --", doc("li.item0").parents())

打印结果
  • 兄弟元素siblings

筛选同级别的元素,同样是可以传入CSS样式进行再一次筛选,看🌰

# 兄弟元素 siblings
def find_sublings():
    doc = pq(html)
    print("siblings()--\n", doc(".item1.active").siblings())
    print("li .item0.active--\n", doc(".item1.active").siblings(".item1"))

打印结果

siblings()--
 <li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
        <li class="item1"><a href="1.html">项目2</a></li>
        <li class="item0">项目1</li>
        <li class="item0"><a href="4.html">项目5</a></li>
      
li .item0.active--
 <li class="item1"><a href="1.html">项目2</a></li>

4.元素遍历 items()

对于返回值是多个元素,然后对每个元素做处理,需要调用items方法,返回的generator类型,可以通过for 循环去取值

def fine_items():
    doc = pq(html)
    for item in doc("li").items():
        print(item())

打印结果

<li class="item0">项目1</li>
        
<li class="item1"><a href="1.html">项目2</a></li>
        
<li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item1 active"><a href="3.html">项目4</a></li>
        
<li class="item0"><a href="4.html">项目5</a></li>

也可以将遍历的值继续进行筛选

def fine_items():
    doc = pq(html)
    for item in doc("li").items():
        print(item(".item0"))

打印结果

<li class="item0">项目1</li>
        
<li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0"><a href="4.html">项目5</a></li>

5.获取属性attr(),文本text(),HTML便签html()

获取属性

获取元素的属性,这个不用过多解释,获取属性由两种写法,以a标签的href属性为例,比如变量a是筛选出来的a标签:

  • a.attr("href")
  • a.attr.href
def find_attr():
    doc = pq(html)
    a = doc("li.item1.active a")
    print(a.attr("href"))
    print(a.attr.href)

打印结果

3.html
3.html

获取文本

文本主要是包含在HTML标签内的内容,不包含标签

def find_text():
    doc = pq(html)
    a = doc("li.item1.active a")
    print(a.text())

打印结果

项目4

获取HTML

def find_html():
    doc = pq(html)
    a = doc("li.item1.active")
    print(a.html())

打印结果

<a href="3.html">项目4</a>

6.DOM操作(讲解部分操作)

addClass 、 removeClass

def add_class():
    doc = pq(html)
    li = doc(".item0.active").remove_class("active")
    print(li)
    li.add_class("active")
    print(li)

打印结果

<li class="item0"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0 active"><a href="2.html"><span class="bold">项目3</span></a></li>

attr、 css

attr:

  • 修改属性,如果此属性已经存在就修改,没有的话就增加此属性
  • 参数:两个参数,第一个为属性名字,第二个为属性值
def attr_test():
    doc = pq(html)
    li = doc(".item0.active").remove_class("active")
    li.attr("id", "item3")
    print(li)
    li.attr("id", "ITEM3")
    print(li)

打印结果

<li class="item0"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0" id="item3"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0" id="ITEM3"><a href="2.html"><span class="bold">项目3</span></a></li>

css: 同attr

def css_test():
    doc = pq(html)
    li = doc(".item0.active").remove_class("active")
    print(li)
    li.css("font_size", "14px")
    print(li)
    li.css("font_size", "41px")
    print(li)

打印结果

<li class="item0"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0" style="font-size: 14px"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0" style="font-size: 41px"><a href="2.html"><span class="bold">项目3</span></a></li>

remove : 删除
应用场景就是先筛选然后删除,为了做进异步筛选备用

def to_remove():
    doc = pq(html)
    li = doc(".item0.active").remove_class("active")
    print(li)
    li.find("span").remove()
    print(li)

打印结果

<li class="item0"><a href="2.html"><span class="bold">项目3</span></a></li>
        
<li class="item0"><a href="2.html"/></li>

更多内容

请查看PyQuery官方文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容