python爬取豆瓣两千万图书简介信息：（八）总结

这次用python爬取豆瓣两千万图书简介信息，大概用时两周时间。
程序在工作之余断断续续的调试了一周多，最终稳定运行了三四天。

执行的最终结果是获取到了550w条的简介书目数据。
大概有书目，书id，作者，标签，出版社，书目缩略图链接等。这些足以供我以后做数据分析使用。

豆瓣的图书信息大概有三四千万的样子，更多的，需要去摸索id的规律方便分析。目前来讲500w条已经够我使用了，如以后再需要，那就再继续爬取就是了。

调试过程中，用到的知识点如下：
1）python基础语法。
2）HTTP相关基础知识。
3）urllib2库的使用。
4）trycatch异常捕获。
5）代理ip使用和获取。
6）简单数据库的使用。
7）python线程与进程分析。

这些知识之前有的简单了解过，并未实践，这次算是写写test demo。有的不清楚，这次算是查了查，浅尝一下。

心血来潮，弄了这么一个程序，主要是为了进行数据分析用的。但当时搞完程序，又忙别的去了，三个月后，终于有空复盘，特此记录一下。

最后编辑于：2018.05.03 09:57:06

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。