python爬取豆瓣两千万图书简介信息:(四)多进程并发

这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结

多进程并发

我写的python爬取数据程序,爬取的目标很明确,就是爬取豆瓣API的所能提供的 两千万图书简介信息。

计划是用python发起网络请求,然后解析数据,并将数据放到mysql数据库中。

如果是简单的弄个2kw的for循环等着依次执行,那平均2s一次的请求,会将时间拉长到你怀疑人生。

串行执行的路走不通,那就必然会想到并发执行。在别的程序语言中,多线程是一种很好的并发策略。然而,Python由于有全锁局的存在(同一时间只能有一个线程执行),并不能利用多核优势。所以,如果程序的多线程进程是CPU密集型的,那多线程并不能带来效率上的提升,相反还可能会因为线程的频繁切换,导致效率下降;如果是IO密集型,多线程进程可以利用IO阻塞等待时的空闲时间执行其他线程,提升效率。

我想要的是,同一瞬时时间内,尽可能的多开网络请求,这样就能提高单位时间内,从豆瓣接口内爬取数据的效率。多线程由于要等待网络请求返回的时间,在这里并不适用。所以我这里采用的是多进程的思路。

其实在python网络并发过程中,有多协程的方法来提示效率。但协程是一种用户态的轻量级线程。它无法利用多核资源:协程的本质是个单线程,它不能同时将 单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.其效率相对来讲,还是低于多进程的方式。

我的思路是,同时开200个到400个进程,将2kw图书分配给这几百个进程。几百个进程同时执行,自然效率上会高很多。当然,我自己的mac的CPU也就8核心的配置。多进程也就是能把这8个核心的利用率提高一点点而已。但是,由于我的每一次请求数据,大多耗时在网络请求中,所以,这样使用多进程,反而能在某种意义上,提高了相应的效率。

我单次网络请求,加上代理ip,读取&解析,以及存入数据库,总共耗时在3s左右。我开到了200个进程,总速度大概在5w条/小时(这里是指有效记录,会有一定概率的网络请求异常以及空id的数据,这部分大概是有效数据的三分之一,总的并发数据量应该在6.6w条/小时)。大约每秒13条(事先没有统计每秒发出的请求次数,事实上我也没有地方放此数据)。

而于之前相比,我开20个进程,平均一小时7k条有效记录,(大概是每秒1.9条)已经快上好多好多了。

下面是代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import Crawler #我的单次爬取程序
import multiprocessing
import SqlOperation #我的数据库操作类
import time

#我的每个进程内,执行id的顺序
def worker(num):
    thread_index = SqlOperation.get_thread_index_id(num)
    #查询当前第 num 个进程已经爬取到最大 id  
    process_index = num*50000+1000000
    # print str(process_index) + ':' + str(thread_index)
    if process_index < thread_index:
        process_index = thread_index        
    #获取当前第 num 个进程,应该开始爬去数据的起始 id  
    Crawler.start_crawler(process_index, num)
    #开始爬取数据,进程为第 num 个,起始id为 process_index

done_id_arr = [1, 2, 3, 4, 6, 7, 8, 9, 10, 12, 13, 14, 15, 17, 18, 19, 20, 23, 25, 26, 27, 28, 30, 32, 34, 36, 38, 39, 40, 43, 44, 52, 64, 70, 74, 84, 86, 87, 98, 102, 116, 119]
#已完成爬取数据的进程id数组,从数据里查到的,但因为每次启动程序,此处只执行一次,就直接硬编码,没有写自动获取的方法

if __name__ == '__main__':
    jobs = []
    Crawler.ips = Crawler.get_ip_arr()
    #获取代理ip组
    # print Crawler.ips
    # Crawler.test_ip(1000007)
    for i in range(11, 200):
        if i in done_id_arr:
            # 如果 第 i 个进程的数据已经爬完了,即 i 在 done_id_arr中,
            # 说明此进程没有开的必要了,可节省相应资源
            pass
        else:
            # 单开进程,爬取第 i 个id组的数据
            p = multiprocessing.Process(target=worker, args=(i,))
            jobs.append(p)
            p.start()

执行效率前面已经说过了,有效数据大概在5w条/小时。这段程序大概开了四天多,最后的数据总量是 5645271条有效记录。(当然数据并不是一次就爬成的,加上之前的调试异常捕获,调试数据库,调试代理ip,这些零零碎碎有十几w的数据量,然后程序稳定后,没有动自己跑,连续不间断的运行时间大概有三天多)。总的来说,还是有些成就感的。

屏幕快照 2017-11-08 下午2.03.57.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容