python网络编程基础(连载)07 协程

gitbook链接:用python带你进入AI中的深度学习技术领域https://www.gitbook.com/book/scrappyzhang/python_to_deeplearn/details

github链接:https://github.com/ScrappyZhang/python_web_Crawler_DA_ML_DL

6 协程

6.1 协程

协程,又称微线程,纤程。英文名Coroutine。

协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。

子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。

所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。

子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不同。

协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后转而执行别的子程序,在适当的时候再返回来接着执行。

注意,在一个子程序中中断,去执行其他子程序,不是函数调用,有点类似CPU的中断。比如子程序A、B:

def A():
    print('1')
    print('2')
    print('3')

def B():
    print('4')
    print('5')
    print('6')

正常情况下,会输出123456 。假设由协程执行,在执行A的过程中,可以随时中断,去执行B,B也可能在执行过程中中断再去执行A,结果可能是:

1
2
4
5
3
6

但是在A中是没有调用B的,所以协程的调用比函数调用理解起来要难一些。

看起来A、B的执行有点像多线程,但协程的特点在于是一个线程执行,那和多线程比,协程有何优势?

最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换,而是由程序自身控制,因此,没有线程切换的开销,和多线程比,线程数量越多,协程的性能优势就越明显。

第二大优势就是不需要多线程的锁机制,因为只有一个线程,也不存在同时写变量冲突,在协程中控制共享资源不加锁,只需要判断状态就好了,所以执行效率比多线程高很多。

因为协程是一个线程执行,那怎么利用多核CPU呢?最简单的方法是多进程+协程,既充分利用多核,又充分发挥协程的高效率,可获得极高的性能。

注:在实现多任务时, 线程切换从系统层面远不止保存和恢复 CPU上下文这么简单。 操作系统为了程序运行的高效性每个线程都有自己缓存Cache等等数据,操作系统还会帮你做这些数据的恢复操作。 所以线程的切换非常耗性能。但是协程的切换只是单纯的操作CPU的上下文,所以一秒钟切换个上百万次系统都抗的住。

6.2 python通过生成器实现协程

Python对协程的支持是通过generator生成器实现的。在generator生成器中,我们不但可以通过for循环来迭代,还可以不断调用next()函数获取由yield语句返回的下一个值。Python的yield不但可以返回一个值,它还可以接收调用者发出的参数。

yield的作用

挂起当前函数,将yield后面的值当做返回给调用生成器的地方;能够在唤醒生成器函数的时候,回复代码继续紧接着从上次执行的地方执行(可以接受额外的参数)

'''net05_yield.py'''
import time


def sing():
    for i in range(5):
        print('正在唱歌呢 %d' % i)
        yield
        time.sleep(1)


def dance():
    for i in range(5):
        print('正在跳舞呢 %d' % i)
        yield
        time.sleep(1)

if __name__ == '__main__':
    s1 = sing() # 唱歌
    d1 = dance() # 跳舞
    i = 5
    while i > 0:
        next(s1) # next获取由yield语句的协程切换
        next(d1)
        i -= 1

结果如下:

正在唱歌呢 0
正在跳舞呢 0
正在唱歌呢 1
正在跳舞呢 1
正在唱歌呢 2
正在跳舞呢 2
正在唱歌呢 3
正在跳舞呢 3
正在唱歌呢 4
正在跳舞呢 4

首先,我们应当注意到代码中的sing和dance函数中的for循环是一个生成器,这是python协程的前提。通过yield实现协程切换,next来调用完成各生成器的下一步动作。整个过程在一个线程内完成,非常高效;不需要多线程的锁,不存在线程安全问题。

需要注意的是:在用yield来完成send参数传递时需要先执行一次next,然后才可以send传递参数。可以看例子:

在第一次唤醒生成器代码时,我们使用next(f)。在后续的协程切换中,我们使用f.send(100)来讲参数100传递给gen中的temp;通过value = f.send()将yield返回的值i赋给value。

'''net05_yield_variable.py'''
def gen():
    i = 0
    while i < 5:
        temp = yield i
        print('send过来的值为', temp)
        i += 1


f = gen()
# 在第一次唤醒生成器代码的时候 必须使用next(f) -- 在生成器代码第一次执行的时候 没有可以接收参数的功能
print('第一次传递过来的值为', next(f))

while True:
    try:
        # value = next(f)
        value = f.send(100)

    except Exception as e:
        print('结束')
        break
    else:
        print("传递过来元素的值是%d" % value)
    finally:
        pass

结果:

第一次传递过来的值为 0
send过来的值为 100
传递过来元素的值是1
send过来的值为 100
传递过来元素的值是2
send过来的值为 100
传递过来元素的值是3
send过来的值为 100
传递过来元素的值是4
send过来的值为 100
结束

6.3 协程——greenlet

为了更好使用协程来完成多任务,python中的greenlet模块对其协程进行了封装,从而省去next等使得切换任务变的更加简单。我们可以通过pip install greenlet安装并使用它。

它一般通过创建greenlet对象,并在相应的代码块里假如switch语句来实现不同函数间的切换。来继续修改唱歌跳舞例子:

'''net05_greenlet.py'''
import time
from greenlet import greenlet  # 导入greenlet.greenlet


def sing():
    for i in range(5):
        print('正在唱歌呢 %d' % i)
        d1.switch()  # 切换到跳舞函数
        time.sleep(1)


def dance():
    for i in range(5):
        print('正在跳舞呢 %d' % i)
        s1.switch()  # 切换到唱歌函数
        time.sleep(1)


if __name__ == '__main__':
    s1 = greenlet(sing)  # 唱歌
    d1 = greenlet(dance)  # 跳舞
    s1.switch()  # 切换到唱歌函数

结果如下:

正在唱歌呢 0
正在跳舞呢 0
正在唱歌呢 1
正在跳舞呢 1
正在唱歌呢 2
正在跳舞呢 2
正在唱歌呢 3
正在跳舞呢 3
正在唱歌呢 4
正在跳舞呢 4

我们首先创建了两个greenlet实例对象,然后从主程序通过s1.switch()切换到sing函数进行唱歌模块。在sing函数中我们又通过d1.switch()切换到跳舞函数模块;在dance函数中通过s1.switch()切换到sing函数。这样便实现了交替切换执行。就像我们分析的那样,它确实简化了next等操作,但是需要开发者手动设置switch来实现不同函数之间的切换

6.4 协程——gevent

正如上一节所说,greenlet需要手动设置切换,并不友好,所以本节介绍一个更友好的协程模块gevent。我们可能需要通过pip install gevent来安装它。

gevent原理是当一个greenlet遇到IO(指的是input output 输入输出,比如网络、文件操作等)操作时,比如访问网络,就自动切换到其他的greenlet,等到IO操作完成,再在适当的时候切换回来继续执行。由于IO操作非常耗时,经常使程序处于等待状态,有了gevent为我们自动切换协程,就保证总有greenlet在运行,而不是等待IO。

gevent一般通过以下语句创建协程并执行:

gevent.spawn(函数名,参数)

但是它创建的协程默认不自动切换,需要使用gevent包的monkey来进行破解切换,语句如下:

from gevent import monkey
monkey.patch_all()

我们继续修改我们的唱歌跳舞实例,以gevent协程的方式来实现同时唱歌跳舞:

'''net05_gevent.py'''
import time
import gevent
# 默认协程不切换,需要使用monkey此语句来破解
from gevent import monkey

monkey.patch_all()


def sing():
    for i in range(5):
        print('正在唱歌呢 %d' % i)
        time.sleep(1)


def dance():
    for i in range(5):
        print('正在跳舞呢 %d' % i)
        time.sleep(1)


if __name__ == '__main__':
    g1 = gevent.spawn(sing)
    g2 = gevent.spawn(dance)
    g1.join()
    g2.join()

结果是一样的,至此,我们分别通过多线程、多进程和协程三种方式实现了同时唱歌跳舞。

正在唱歌呢 0
正在跳舞呢 0
正在唱歌呢 1
正在跳舞呢 1
正在唱歌呢 2
正在跳舞呢 2
正在唱歌呢 3
正在跳舞呢 3
正在唱歌呢 4
正在跳舞呢 4

6.5 进程、线程、协程区别

  • 进程是资源分配的单位
  • 线程是操作系统调度的单位
  • 进程切换需要的资源很最大,效率很低
  • 线程切换需要的资源一般,效率一般
  • 协程切换任务资源很小,效率高
  • 多进程、多线程根据cpu核数不一样可能是并行的 也可能是并发的。协程的本质就是使用当前进程在不同的函数代码中切换执行,可以理解为并行。 协程是一个用户层面的概念,不同协程的模型实现可能是单线程 也可能是多线程。

6.7 协程实现网页并发下载

需求实现:

通过gevent协程来同时下载百度、163、hao123的主页html并保存到本地。

完整源代码:

'''net05_html_download.py'''
from gevent import monkey
import gevent
import urllib.request

monkey.patch_all()


def my_download(url):
    print('GET: %s' % url)
    resp = urllib.request.urlopen(url)
    data = resp.read()
    input_file = url.lstrip('http://www.').rstrip('.com/') + '.html'
    with open(input_file, 'wb') as html_in_file:
        html_in_file.write(data)
    print('%d bytes received from %s.' % (len(data), url))

# joinall 为阻塞主程序使得列表内所有协程完成
gevent.joinall([
    gevent.spawn(my_download, 'http://www.baidu.com/'),
    gevent.spawn(my_download, 'http://www.163.com/'),
    gevent.spawn(my_download, 'http://www.hao123.com/')
])

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 前言 很多朋友对异步编程都处于“听说很强大”的认知状态。鲜有在生产项目中使用它。而使用它的同学,则大多数都停留在知...
    星星在线阅读 2,852评论 2 39
  • 目录 一、开启线程的两种方式 在python中开启线程要导入threading,它与开启进程所需要导入的模块mul...
    CaiGuangyin阅读 2,392评论 1 16
  • Coroutine in Python 引言: 本文出自David Beazley 的关于协程的PPT,现在笔者将...
    LumiaXu阅读 1,594评论 4 8
  • 原创文章出自公众号:「码农富哥」,如需转载请请注明出处!文章如果对你有收获,可以收藏转发,这会给我一个大大鼓励哟!...
    大富帅阅读 9,886评论 3 21
  • 轻量级线程:协程 在常用的并发模型中,多进程、多线程、分布式是最普遍的,不过近些年来逐渐有一些语言以first-c...
    Tenderness4阅读 6,351评论 2 10