《Python网络数据采集》读后感

感谢图灵社区的电子书阅读奖励计划

采集和爬虫是一个概念吗?

之前一直都认为,对特定页面爬取数据称为“采集”更合理,因为这个词从语义上来说更有目的性。而“爬虫”是无限爬取页面,只要有链接就会继续向下爬,是没有“明确的”目的的。

而且采集更简单,只要关注单个页面/网站,而爬虫更复杂(可能会从一个页面到另一个页面/一个网站到另一个网站)。

但是在这本书中并没有对这两者有严格的区分,而书名是“网络数据采集”,介绍的内容即有我想象中的采集,也有爬虫,所以可以认为这两者是同一概念了。

总结

开始接触Python也是因为听说了强大的爬虫能力以及强大的Scrapy框架。
不过自己仅仅是实现简单的“采集”,在使用了Scrapy后觉得太复杂还是放弃了。

所以书中提到的问题可以说我都有经历过,JavaScript生成的内容、cookie、验证码等等,因此有更深的体会。

整体内容从简单到复杂,从使用最简单的内置库抓取一个页面并解析内容,到爬取多个页面并存储到数据库后进行语义分析,可以说是层层深入,初学者也能跟着作者实现一个简单的爬虫,这样就有了正反馈,也就更愿意学习了。

除了基础的爬虫外,作者还介绍了很多更有趣的东西,语义分析、训练、机器学习等等,虽然只是一笔略过,但给了学习的方向与动力。

所以对于初学者来说,这本书还是很不错的,可惜的就是所有的实例都是基于国外的网站,如果不能翻墙就只能干瞪眼了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容