网络爬虫

什么是网络爬虫?

      网络爬虫又叫蜘蛛,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。所以要想抓取网络上的数据,不仅需要爬虫程序还需要一个可以接受”爬虫“发回的数据并进行处理过滤的服务器,爬虫抓取的数据量越大,对服务器的性能要求则越高。

网络爬虫的实现原理

       根据这种原理,写一个简单的网络爬虫程序 ,该程序实现的功能是获取网站发回的数据,并提取之中的网址,获取的网址我们存放在一个文件夹中,关于如何就从网站获取的网址进一步循环下去获取数据并提取其中其他数据这里就不在写了,只是模拟最简单的一个原理则可以,实际的网站爬虫远比这里复杂多,深入讨论就太多了。除了提取网址,我们还可以提取其他各种我们想要的信息,只要修改过滤数据的表达式则可以。以下是利用[Java](http://lib.csdn.net/base/javase "Java SE知识库")模拟的一个程序,提取新浪页面上的链接,存放在一个文件里

实例1:爬取CSDN上面的标题


TIM截图20190419144611.png
TIM截图20190418001059.png
TIM截图20190418001048.png

实例2:爬取豆瓣读书上面图书的封面


TIM截图20190419144923.png
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,315评论 45 523
  • 下载地址:30个小时搞定Python网络爬虫 课程目录: ├─第一章节:Python 网络爬虫之基础 │ 1、...
    Fasimlal阅读 1,397评论 0 0
  • 1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...
    Lemon_Home阅读 3,120评论 0 21
  • 今天来总结一点关于css中哪些属性可以被继承,哪些不可以被继承。不是很全,仅供大家参考,也方便于自己以后复...
    Cee_1997阅读 2,872评论 0 2
  • “妈妈,快看,那儿有很多好看的蝴蝶呀!!”中午温暖的阳光照在小女孩甜甜的脸上,她开心地指着...
    阡陌怡阅读 326评论 0 7

友情链接更多精彩内容