总结就是,有时不是你技术不行,而是心态
==============
年初接到老板任务,让采集下这个网的数据,我一看是网站觉得简单,就说3天搞定,结果这一搞搞了2-3个月。
就这一折腾,就几个月过去了,才慢慢把土地成交200万数据,抵押,转让,一个40万,一个80万,共300多万数据提取下来。
在这之后,就只要慢慢更新就行了,速度不快,也不会对ip和网站本身产生什么影响。
这个网的问题如下,
1、采集太快禁ip
2、页面有200页限制
3、详细页中没有省份信息
4、用代理采集,可以加快速度,结果网站容易挂
5、后来还加了电子 狗加密。
6、经常网站维护
7、网页看似规则,但有几个字段麻烦,爬多了后来发才现。
我习惯用python + scrapy + mysql,目前没有接redis,基本上也够用了。
代码我就没有放了,因为维护的快,网上也有一些,解析基本上大同小异。当然代码也是要不停维护的。
主要几点心得就是
1、采集大量数据不能猴急,细水长久,慢慢来,不能并发太多,这网太慢了,有时人工查也慢,容易挂。我看到有人弄这个的网的数据,几个月了,也没弄完,其实就是天天说这出问题,那出问题,其实速度放慢就可以,慢慢来。
2、一般要用数据库,去重,记录上次爬取的状态,或分省,分时间段爬取,在爬虫中断后,可以快速的继续上次的状态,而不用重来一次。
3、有时技术,框架什么的可能都不是很重要,实用为上,可以说我是以时间为代价换成果的
4、注意以上几点,其它的就是技术细节的问题了,都不会太麻烦。