网络爬虫初探

促使我研究爬虫的契机很简单,也很直接:想把 http://meizhi.im 这个网站上所有的图片保存下来,想想都激动,绅士们都会懂的(*_*)

一直以来都觉得网络爬虫是个很好玩的东西,如果学会使用,那么无论是你想要的文字还是图片,就都能够清晰明了地展现在你眼前。所以我所理解的爬虫涵义就是获取网页上你想要的信息内容。
大家似乎都比较喜欢用 Python 来写爬虫代码,是因为它拥有比较强大的库,便于开发。无奈的是我不会这门语言,于是就尝试使用 Node.js 来进行网页数据的抓取以及分析。

其实 Node.js 也有很强大的原生及第三方模块的支持,所谓代码靠抄(邪教),这里就毫不客气地直接使用已经造好的轮子了:《使用 eventproxy 控制并发》。以此为基础,我们所需要做的工作无非就是将各个帖子中的图片筛选出来并下载到本地。

直接扔 Github 链接:https://github.com/saintwinkle/meizhi-crawler
其实就网站现有的帖子数量上来讲,从效率角度出发,并发特性没有得到比较好的利用,就算一个个帖子去抓取,速度上最终并不会相差太多。

截至此文发表时间,该站约有 1500 张图片,仅供参考,期待更多。以上。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容