什么是协程
简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性。因此,这种由程序员自己写程序来管理的轻量级线程称作“用户空间线程”。
协程较多线程的优点
1、线程的控制权在操作系统上,而协程的控制权完全掌握在用户手中,因此利用协程可以减少程序运行时的上下文切换,有效提高程序的运行效率。
2、建立线程时,系统默认分配给线程的栈大小是1M,而协程更轻量,只是接近1k。因此,可以在相同的内存中开启更多的协程。
3、由于协程的本质不是多线程,而是单线程。因此,不需要多线程锁的机制,因为只有一个线程,也不存在同时写变量造成的冲突。在协程中控制共享资源不需要加锁,只需要判断状态即可。所以协程的执行效率比线程高很多,同时也有效避免了多线程中的竞争关系。
协程的优点与缺点
优点:协程适用于那些需要被阻塞,且大量并发的场景。
缺点:协程不适用于需要大量计算的场景(因为协程的本质是单线程来回切换),因此,是不可能使用单线程去计算。
理解同步、异步、阻塞与非阻塞
IO操作
IO分为两个阶段(一旦拿到数据后就变成数据操作,不再是IO):
1、数据准备阶段
2、内核空间复制数据到用户进程缓冲区(用户空间)阶段
在操作系统中,程序运行的空间分为内核空间与用户空间。应用程序都是运行在用户空间的,因此它们操作的数据也在用户空间。
阻塞IO与非阻塞IO的区别在于第一步发起IO请求是否被阻塞,如果被阻塞直到完成,那么这就是传统的阻塞IO,如果不阻塞,那么就是非阻塞IO。
阻塞与非阻塞是针对进程访问数据的时候,根据IO操作的就绪状态来采取的不同方式,说白了就是读取或写入操作方法的实现方式,阻塞方式下读取或写入函数,将一直在等待,而非阻塞方式下,读取或写入函数会立即返回一个状态值。
同步I/O与异步I/O
(手绘同步IO图)上图所展示的内容为同步I/O图。
同步IO与异步IO的区别就在于第二个步骤是否阻塞,如果不阻塞,而是操作系统帮你完成IO操作再返回结果,那么就是异步IO。
同步和异步是针对应用程序和内核交互而言的,同步指的是用户进程触发IO操作并等待或轮询的查看IO操作是否就绪;而异步则指的是用户进程触发IO操作以后便开始做自己的事情,而当IO操作已经完成的时候会得到IO完成的通知。
上图所展示的是异步IO的模型图。
阻塞IO与非阻塞IO
阻塞指的是I/O操作需要彻底完成后才能返回用户空间。阻塞IO模型如下图所示:
非阻塞IO操作是指被调用后立即返回一个值,无需等待I/O操作彻底完成。非阻塞I/O模型,如下图所示:
同步与异步(线程间调用)
同步与异步对于调用者与被调用者,它们是线程之间的关系,两个线程要么是同步的,要么是异步的。
同步操作时,调用者需要等待被调用者返回结果,才会进行下一步操作。
异步操作时,调用者不需要等待被调用者返回调用,即可进行下一步操作,被调用者通常依靠事件、回调等机制来通知调用者结果。
阻塞与非阻塞(线程内调用)
阻塞与非阻塞是对同一个线程来说的,在某个时刻,线程要么处于阻塞状态,要么处于非阻塞状态。
阻塞和非阻塞关注的是程序在等待调用结果(消息和返回值)的状态。
阻塞调用指的是得到返回的调用结果之前,当前线程会被挂起。调用线程只有在等到结果之后才继续执行。
非阻塞调用指的是在没有得到调用的返回结果之前,该调用不会阻塞当前线程。
基于http框架的httpx
requests中实现的http请求是同步请求,但基于http请求IO阻塞的特性,非常适用协程来实现“异步”的http请求。
httpx是一个继承了所有requests特性并且支持异步http请求的库。可以认为httpx是加强版的requests。
安装方法
pip install httpx
实践
我们可以分别使用httpx的同步与异步的方法对url发起批量的请求,然后进行耗时比较。
同步http请求的具体代码,如下所示:
import httpx
import threading
import time
def sync_main(url, sign):
response = httpx.get(url).status_code
print(f'sync_main:{threading.current_thread()}: {sign} : {response}')
sync_start = time.time()
[sync_main(url='https://www.baidu.com', sign=i) for i in range(200)]
sync_end = time.time()
print(sync_end-sync_start)
运行结果,如下所示:
sync_main:<_MainThread(MainThread, started 12368)>: 195 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 196 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 197 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 198 + 200
sync_main:<_MainThread(MainThread, started 12368)>: 199 + 200
12.657010078430176
一共耗时12秒左右。
异步http请求的具体代码,如下所示:
import asyncio
import httpx
import threading
import time
client = httpx.AsyncClient()
async def async_main(url, sign):
response = httpx.get(url).status_code
print(f'async_main: {threading.current_thread()}: {sign}: {response}')
loop = asyncio.get_event_loop()
task = [async_main('http://www.baidu.com', sign=i) for i in range(200)]
async_start = time.time()
loop.run_until_complete(asyncio.wait(task))
async_end = time.time()
loop.close()
print(async_end-async_start)
运行结果,如下所示:
async_main: <_MainThread(MainThread, started 10948)>: 82: 200
async_main: <_MainThread(MainThread, started 10948)>: 144: 200
async_main: <_MainThread(MainThread, started 10948)>: 21: 200
async_main: <_MainThread(MainThread, started 10948)>: 83: 200
async_main: <_MainThread(MainThread, started 10948)>: 145: 200
10.82936143875122
一共耗时10秒左右。
同样是向百度这个网址发送200次的请求,异步http比同步http快了2秒左右,效率也是得到了提升。
小结
使用协程发送请求,顺序一定是乱的,因为程序在协程间不停的切换,但是主线程并没有切换,协程的本质就是单线程。
本篇文章的主要内容是要理解同步、异步、阻塞与非阻塞的概念,在后面的文章中我会与爬虫结合。
文章的每一个字,都是我用心敲出来的,只希望对得起每一位关注我的人。
点个再看,让我知道,我的文章对你是真的有收获!