《Python网络数据采集》读后感

感谢图灵社区的电子书阅读奖励计划。

采集和爬虫是一个概念吗？

之前一直都认为，对特定页面爬取数据称为“采集”更合理，因为这个词从语义上来说更有目的性。而“爬虫”是无限爬取页面，只要有链接就会继续向下爬，是没有“明确的”目的的。

而且采集更简单，只要关注单个页面/网站，而爬虫更复杂（可能会从一个页面到另一个页面/一个网站到另一个网站）。

但是在这本书中并没有对这两者有严格的区分，而书名是“网络数据采集”，介绍的内容即有我想象中的采集，也有爬虫，所以可以认为这两者是同一概念了。

开始接触Python也是因为听说了强大的爬虫能力以及强大的Scrapy框架。
不过自己仅仅是实现简单的“采集”，在使用了Scrapy后觉得太复杂还是放弃了。

所以书中提到的问题可以说我都有经历过，JavaScript生成的内容、cookie、验证码等等，因此有更深的体会。

整体内容从简单到复杂，从使用最简单的内置库抓取一个页面并解析内容，到爬取多个页面并存储到数据库后进行语义分析，可以说是层层深入，初学者也能跟着作者实现一个简单的爬虫，这样就有了正反馈，也就更愿意学习了。

除了基础的爬虫外，作者还介绍了很多更有趣的东西，语义分析、训练、机器学习等等，虽然只是一笔略过，但给了学习的方向与动力。

所以对于初学者来说，这本书还是很不错的，可惜的就是所有的实例都是基于国外的网站，如果不能翻墙就只能干瞪眼了。