PyQuery和多线程

PyQuery简介 pyquery相当于jQuery的python实现，可以用于解析HTML网页等

初始化有 4 种方法可以进行初始化：可以通过传入字符串、lxml、文件或者 url 来使用PyQuery。

from pyquery import PyQuery as pq
from lxml import etree

#传入字符串
d = pq("<html></html>")
#传入lxml
d = pq(etree.fromstring("<html></html>"))
#传入url
d = pq(url='http://google.com/')
#传入文件
d = pq(filename=path_to_html_file)
现在，d 就像 jQuery 中的 $ 一样了。

1、.html()和.text() 获取相应的 HTML 块或者文本内容，

p=pq("<head><title>Hello World!</title></head>")

# 获取相应的 HTML 块
print (p('head').html())

# 获取相应的文本内容
print (p('head').text())

输出：
'''
<title>hello Word</title>
Hello World!
'''

2、(selector)：通过选择器来获取目标内容

d = pq(
"<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)

# 获取 <div> 元素内的 HTML 块
print (d('div').html())

# 获取 id 为 item-0 的元素内的文本内容
print (d('#item-0').text())

# 获取 class 为 item-1 的元素的文本内容
print (d('.item-1').text())

'''输出：
<p id="item-0">test 1</p><p class="item-1">test 2</p>
test 1
test 2
'''

3、.eq(index)：根据索引号获取指定元素（index 从 0 开始）

d = pq(
"<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>"
)

# 获取第二个 p 元素的文本内容
print (d('p').eq(1).text())

'''输出
test 2

4、.find()：查找嵌套元素

d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")

# 查找 <div> 内的 p 元素
print d('div').find('p')

# 查找 <div> 内的 p 元素，输出第一个 p 元素
print d('div').find('p').eq(0)

'''输出：
<p id="item-0">test 1</p><p class="item-1">test 2</p>
<p id="item-0">test 1</p>
'''

5、.filter()：根据 class、id 筛选指定元素

d = pq("<div><p id='item-0'>test 1</p><p class='item-1'>test 2</p></div>")

# 查找 class 为 item-1 的 p 元素
print d('p').filter('.item-1')

# 查找 id 为 item-0 的 p 元素
print d('p').filter('#item-0')

'''输出：
<p class="item-1">test 2</p>
<p id="item-0">test 1</p>

6.attr()：获取、修改属性值

d = pq("<div><p id='item-0'>test 1</p><a class='item-1'>test 2</p></div>")

# 获取 <p> 标签的属性 id
print(d('p').attr('id'))

# 修改 <a> 标签的 class 属性为 new
print(d('a').attr('class','new'))

'''输出：
item-0
<a class="new">test 2</a>

7、其他操作：

#添加 class
.addClass(value)：
#判断是否包含指定的 class，返回 True 或 False
.hasClass(value)：
#获取子元素
.children()：
#获取父元素
.parents()：
#获取下一个元素
.next()：
#获取后面全部元素块
.nextAll()：
#获取所有不匹配该选择器的元素
.not_(selector)：

什么是多任务？

简单的说，就是操作系统可以同时运行多个任务

threading.Thread参数介绍

target:线程执行的函数
name:线程名称
args:执行函数中需要传递的参数，元组类型另外：注意daemon参数
如果某个子线程的daemon属性为False，主线程结束时会检测该子线程是否结束，如果该子线程还在运行，则主线程会等待它完成后再退出；
如果某个子线程的daemon属性为True，主线程运行结束时不对这个子线程进行检查而直接退出，同时所有daemon值为True的子线程将随主线程一起结束，而不论是否运行完成。
属性daemon的值默认为False，如果需要修改，必须在调用start()方法启动线程之前进行设置

主线程与子线程的执行顺序

#coding=utf-8
import threading
from time import sleep,ctime

def sing():
for i in range(3):
print("正在唱歌...%d"%i)
sleep(1)

def dance():
for i in range(3):
print("正在跳舞...%d"%i)
sleep(1)

if __name__ == '__main__':
print('---开始---:%s'%ctime())

t1 = threading.Thread(target=sing)
t2 = threading.Thread(target=dance)

t1.start()
t2.start()

t1.join()
t2.join()

#sleep(5) # 屏蔽此行代码，试试看，程序是否会立马结束？
print('---结束---:%s'%ctime())

互斥锁

当多个线程几乎同时修改某一个共享数据的时候，需要进行同步控制
线程同步能够保证多个线程安全访问竞争资源，最简单的同步机制是引入互斥锁。
互斥锁为资源引入一个状态：锁定/非锁定
某个线程要更改共享数据时，先将其锁定，此时资源的状态为“锁定”，其他线程不能更改；直到该线程释放资源，将资源的状态变成“非锁定”，其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作，从而保证了多线程情况下数据的正确性

1.创建锁

lock = threading.Lock()

2.锁定

lock.acquire()

2.释放

lock.release()

锁的好处

确保了某段关键代码只能由一个线程从头到尾完整地执行

锁的坏处：

阻止了多线程并发执行，包含锁的某段代码实际上只能以单线程模式执行，效率就大大地下降了。
由于可以存在多个锁，不同的线程持有不同的锁，并试图获取对方持有的锁时，可能会造成死锁。

死锁问题

在线程间共享多个资源的时候，如果两个线程分别占有一部分资源并且同时等待对方的资源，就会造成死锁。

PyQuery和多线程

PyQuery和多线程

初始化有 4 种方法可以进行初始化：可以通过传入字符串、lxml、文件或者 url 来使用PyQuery。

什么是多任务？

threading.Thread参数介绍

主线程与子线程的执行顺序

互斥锁

1.创建锁

2.锁定

2.释放

锁的好处

锁的坏处：

死锁问题

相关阅读更多精彩内容

友情链接更多精彩内容

PyQuery和多线程

初始化 有 4 种方法可以进行初始化： 可以通过传入 字符串、lxml、文件 或者 url 来使用PyQuery。

什么是多任务？

threading.Thread参数介绍

主线程与子线程的执行顺序

互斥锁

1.创建锁

2.锁定

2.释放

锁的好处

锁的坏处：

死锁问题

相关阅读更多精彩内容

友情链接更多精彩内容

初始化有 4 种方法可以进行初始化：可以通过传入字符串、lxml、文件或者 url 来使用PyQuery。