爬虫知识

通用网络爬虫:

1,获取初始的url

2,根据初始的url爬取页面并获得新的url

3, 将新的url放到url队列中

4,从url队列中读取新的url,并根据新的url爬起网页,同时从新网页中获取新url,并重复上述过程

5,满足爬虫系统设置的停止条件时,停止爬取

聚焦网络爬虫:

-------对爬取目标的定义和描述

-------获取初始的url

-------根据初始的url爬取页面,并获得新的url

-------从新的url中过滤掉与爬取目标无关的链接

-------将过滤后的链接放的url队列中

-------从url队列中,根据搜索算法,确定url的优先级,并确定下一步要爬取的url地址

-------从下一步要爬取的url地址中,读取新的url,然后依据新的url地址爬取网页,并重复上述爬取过程

------满足爬虫的停止条件时或无法获取新的url时停止爬。

    一般url标准中只会允许一部分ASCII字符入数字、字母、部分符号等,如果是汉字或以下特殊字符比如:&等就需要编码。

    服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response。浏览器收到服务器的Response信息后,会对信息进行相应处理,然后展示。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 爬虫背景知识: 大数据时代?数据怎么来的呢?企业产生的数据:大的公司会根据用户的行为记录数据,数据会被大公司利用,...
    BaiBao丶阅读 1,950评论 0 0
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    liuzhijun阅读 5,193评论 3 45
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    2pro阅读 1,228评论 0 0
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    小姐姐吖_6271阅读 2,312评论 0 3
  • 背景 部门(东方IC、图虫)业务驱动,需要搜集大量图片资源,做数据分析,以及正版图片维权。前期主要用node做爬虫...
    字节跳动技术团队阅读 12,311评论 1 67