这是全部的调试过程,我已经整理成为笔记,这里分享给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结
多进程并发
我写的python爬取数据程序,爬取的目标很明确,就是爬取豆瓣API的所能提供的 两千万图书简介信息。
计划是用python发起网络请求,然后解析数据,并将数据放到mysql数据库中。
如果是简单的弄个2kw的for循环等着依次执行,那平均2s一次的请求,会将时间拉长到你怀疑人生。
串行执行的路走不通,那就必然会想到并发执行。在别的程序语言中,多线程是一种很好的并发策略。然而,Python由于有全锁局的存在(同一时间只能有一个线程执行),并不能利用多核优势。所以,如果程序的多线程进程是CPU密集型的,那多线程并不能带来效率上的提升,相反还可能会因为线程的频繁切换,导致效率下降;如果是IO密集型,多线程进程可以利用IO阻塞等待时的空闲时间执行其他线程,提升效率。
我想要的是,同一瞬时时间内,尽可能的多开网络请求,这样就能提高单位时间内,从豆瓣接口内爬取数据的效率。多线程由于要等待网络请求返回的时间,在这里并不适用。所以我这里采用的是多进程的思路。
其实在python网络并发过程中,有多协程的方法来提示效率。但协程是一种用户态的轻量级线程。它无法利用多核资源:协程的本质是个单线程,它不能同时将 单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.其效率相对来讲,还是低于多进程的方式。
我的思路是,同时开200个到400个进程,将2kw图书分配给这几百个进程。几百个进程同时执行,自然效率上会高很多。当然,我自己的mac的CPU也就8核心的配置。多进程也就是能把这8个核心的利用率提高一点点而已。但是,由于我的每一次请求数据,大多耗时在网络请求中,所以,这样使用多进程,反而能在某种意义上,提高了相应的效率。
我单次网络请求,加上代理ip,读取&解析,以及存入数据库,总共耗时在3s左右。我开到了200个进程,总速度大概在5w条/小时(这里是指有效记录,会有一定概率的网络请求异常以及空id的数据,这部分大概是有效数据的三分之一,总的并发数据量应该在6.6w条/小时)。大约每秒13条(事先没有统计每秒发出的请求次数,事实上我也没有地方放此数据)。
而于之前相比,我开20个进程,平均一小时7k条有效记录,(大概是每秒1.9条)已经快上好多好多了。
下面是代码:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import Crawler #我的单次爬取程序
import multiprocessing
import SqlOperation #我的数据库操作类
import time
#我的每个进程内,执行id的顺序
def worker(num):
thread_index = SqlOperation.get_thread_index_id(num)
#查询当前第 num 个进程已经爬取到最大 id
process_index = num*50000+1000000
# print str(process_index) + ':' + str(thread_index)
if process_index < thread_index:
process_index = thread_index
#获取当前第 num 个进程,应该开始爬去数据的起始 id
Crawler.start_crawler(process_index, num)
#开始爬取数据,进程为第 num 个,起始id为 process_index
done_id_arr = [1, 2, 3, 4, 6, 7, 8, 9, 10, 12, 13, 14, 15, 17, 18, 19, 20, 23, 25, 26, 27, 28, 30, 32, 34, 36, 38, 39, 40, 43, 44, 52, 64, 70, 74, 84, 86, 87, 98, 102, 116, 119]
#已完成爬取数据的进程id数组,从数据里查到的,但因为每次启动程序,此处只执行一次,就直接硬编码,没有写自动获取的方法
if __name__ == '__main__':
jobs = []
Crawler.ips = Crawler.get_ip_arr()
#获取代理ip组
# print Crawler.ips
# Crawler.test_ip(1000007)
for i in range(11, 200):
if i in done_id_arr:
# 如果 第 i 个进程的数据已经爬完了,即 i 在 done_id_arr中,
# 说明此进程没有开的必要了,可节省相应资源
pass
else:
# 单开进程,爬取第 i 个id组的数据
p = multiprocessing.Process(target=worker, args=(i,))
jobs.append(p)
p.start()
执行效率前面已经说过了,有效数据大概在5w条/小时。这段程序大概开了四天多,最后的数据总量是 5645271条有效记录。(当然数据并不是一次就爬成的,加上之前的调试异常捕获,调试数据库,调试代理ip,这些零零碎碎有十几w的数据量,然后程序稳定后,没有动自己跑,连续不间断的运行时间大概有三天多)。总的来说,还是有些成就感的。