Python 全栈:教你搭建基于 aiohttp 的高并发爬虫

前言

今天这篇属于 asyncio 的应用篇,asyncio 的应用包括 web 服务端、爬虫应用、数据库连接库、分布式任务队列等领域。这里我们重点讲的是爬虫领域,使用的模块是 aiohttp。同样的和前面的教程一样,这里我们使用的 Python 版本同样为 3.8。

关于 aiohttp

Python 标准库的 asyncio 模块,内部实现了对 TCP、UDP、SSL 协议的异步操作方式,但是没有直接提供 HTTP 的异步操作方式。所以如果需要使用 HTTP 协议,我们就需要用到一个第三方的模块 aiohttp。

aiohttp 是一个基于 asyncio 的异步 http 网络模块分为了客户端和服务端,同时支持 websocket 的使用。在写爬虫时提供异步网络请求,而我们常用到的 requests 库是同步库,它会阻塞住 asyncio 所以不能在异步的环境中直接使用(这里不是说不能用,而是不能像写同步代码一样用它。我们需要用 run_in_executor 来运行,因为这属于使用额外线程的操作,开销上也是不小,所以不推荐大家使用)。

aiohttp 分为服务端和客户端,因为我们主要写爬虫程序所以我们重点说的是客户端的开发。

requests 和 requests+线程池以及使用 aiohttp 对比

首先,我们看一下使用 requests 进行循环访问、requests+线程池 、以及使用 aiohttp 这三种方式访问网址 2000 次返回最终结果的所用时间。 首先我们我通过 aiohttp 创建了一个本地的服务,地址为 127.0.0.1:5000。 先不要关注代码细节 代码如下:

from aiohttp import web

async def home(request: web.Request) -> web.Response:
    return web.Response(text="Hi")

async def init_app() -> web.Application:
    app = web.Application()
    app.add_routes([web.get("/", home)])
    return app

web.run_app(init_app(), port=5000)

之后打开我们的爬虫端分别测试上面三种结果的访问 2000 次的时间 测试代码如下

import requests
import timeit
from concurrent.futures import ThreadPoolExecutor
import aiohttp
import asyncio

session = requests.session()
url = "http://127.0.0.1:5000"

Count = 2000

def req(url: str):
    req = requests.get(url)
    req.status_code

def requests_test():
    """
    第一组:循环的方式
    :return: 
    """
    for i in range(Count):
        req(url)

def pool_requests_test():
    """
    第二组:线程池的方式
    :return: 
    """
    url_list = [url for _ in range(Count)]
    with ThreadPoolExecutor(max_workers=20) as pool:
        pool.map(req, url_list)

async def fetch(url: str):
    async with aiohttp.TCPConnector(ssl=False) as tc:
        async with aiohttp.ClientSession(connector=tc) as session:
            async with session.get(url) as req:
                req.status

async def start():
    tasks = [asyncio.create_task(fetch(url)) for _ in range(Count)]
    await asyncio.wait(tasks)

def aiohttp_test():
    """
    第三组:aiohttp 的方式
    :param url: 
    :return: 
    """
    asyncio.run(start())

if __name__ == '__main__':
    # 循环的
    print(timeit.timeit(stmt=requests_test, number=1))
    # 使用线程池的
    print(timeit.timeit(stmt=pool_requests_test, number=1))    
    # 使用 aiohttp 的
    # print(timeit.timeit(stmt=aiohttp_test, number=1))

测试了一共三次得到的结果如下: 第一次

3.08348508
2.1871939129999998
1.154268153

第二次

3.0424138099999998
2.395021737
1.315619199

第三次

 2.953041779
 2.242499116
 1.14594682

很明显使用 aiohttp 的程序访问 2000 次时用时最短的。

还有 81% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
支付 ¥9.99 继续阅读
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容