网络爬虫

什么是网络爬虫？

      网络爬虫又叫蜘蛛，网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。所以要想抓取网络上的数据，不仅需要爬虫程序还需要一个可以接受”爬虫“发回的数据并进行处理过滤的服务器，爬虫抓取的数据量越大，对服务器的性能要求则越高。

网络爬虫的实现原理

       根据这种原理，写一个简单的网络爬虫程序 ，该程序实现的功能是获取网站发回的数据，并提取之中的网址，获取的网址我们存放在一个文件夹中，关于如何就从网站获取的网址进一步循环下去获取数据并提取其中其他数据这里就不在写了，只是模拟最简单的一个原理则可以，实际的网站爬虫远比这里复杂多，深入讨论就太多了。除了提取网址，我们还可以提取其他各种我们想要的信息，只要修改过滤数据的表达式则可以。以下是利用[Java](http://lib.csdn.net/base/javase "Java SE知识库")模拟的一个程序，提取新浪页面上的链接，存放在一个文件里

实例1：爬取CSDN上面的标题

TIM截图20190419144611.png

TIM截图20190418001059.png

TIM截图20190418001048.png

实例2：爬取豆瓣读书上面图书的封面

TIM截图20190419144923.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

网络爬虫

网络爬虫

什么是网络爬虫？

网络爬虫的实现原理

相关阅读更多精彩内容

友情链接更多精彩内容