这次用python爬取豆瓣两千万图书简介信息,大概用时两周时间。
程序在工作之余断断续续的调试了一周多,最终稳定运行了三四天。
调试过程
调试过程我已经整理成为笔记,这里分析给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结
执行结果
执行的最终结果是获取到了550w条的简介书目数据。
大概有书目,书id,作者,标签,出版社,书目缩略图链接等。这些足以供我以后做数据分析使用。
豆瓣的图书信息大概有三四千万的样子,更多的,需要去摸索id的规律方便分析。目前来讲500w条已经够我使用了,如以后再需要,那就再继续爬取就是了。
用到的知识
调试过程中,用到的知识点如下:
1)python基础语法。
2)HTTP相关基础知识。
3)urllib2库的使用。
4)trycatch异常捕获。
5)代理ip使用和获取。
6)简单数据库的使用。
7)python线程与进程分析。
这些知识之前有的简单了解过,并未实践,这次算是写写test demo。有的不清楚,这次算是查了查,浅尝一下。
心血来潮,弄了这么一个程序,主要是为了进行数据分析用的。但当时搞完程序,又忙别的去了,三个月后,终于有空复盘,特此记录一下。