感谢图灵社区的电子书阅读奖励计划。
采集和爬虫是一个概念吗?
之前一直都认为,对特定页面爬取数据称为“采集”更合理,因为这个词从语义上来说更有目的性。而“爬虫”是无限爬取页面,只要有链接就会继续向下爬,是没有“明确的”目的的。
而且采集更简单,只要关注单个页面/网站,而爬虫更复杂(可能会从一个页面到另一个页面/一个网站到另一个网站)。
但是在这本书中并没有对这两者有严格的区分,而书名是“网络数据采集”,介绍的内容即有我想象中的采集,也有爬虫,所以可以认为这两者是同一概念了。
总结
开始接触Python
也是因为听说了强大的爬虫能力以及强大的Scrapy
框架。
不过自己仅仅是实现简单的“采集”,在使用了Scrapy
后觉得太复杂还是放弃了。
所以书中提到的问题可以说我都有经历过,JavaScript
生成的内容、cookie
、验证码等等,因此有更深的体会。
整体内容从简单到复杂,从使用最简单的内置库抓取一个页面并解析内容,到爬取多个页面并存储到数据库后进行语义分析,可以说是层层深入,初学者也能跟着作者实现一个简单的爬虫,这样就有了正反馈,也就更愿意学习了。
除了基础的爬虫外,作者还介绍了很多更有趣的东西,语义分析、训练、机器学习等等,虽然只是一笔略过,但给了学习的方向与动力。
所以对于初学者来说,这本书还是很不错的,可惜的就是所有的实例都是基于国外的网站,如果不能翻墙就只能干瞪眼了。