爬虫知识

通用网络爬虫:

1,获取初始的url

2,根据初始的url爬取页面并获得新的url

3, 将新的url放到url队列中

4,从url队列中读取新的url,并根据新的url爬起网页,同时从新网页中获取新url,并重复上述过程

5,满足爬虫系统设置的停止条件时,停止爬取

聚焦网络爬虫:

-------对爬取目标的定义和描述

-------获取初始的url

-------根据初始的url爬取页面,并获得新的url

-------从新的url中过滤掉与爬取目标无关的链接

-------将过滤后的链接放的url队列中

-------从url队列中,根据搜索算法,确定url的优先级,并确定下一步要爬取的url地址

-------从下一步要爬取的url地址中,读取新的url,然后依据新的url地址爬取网页,并重复上述爬取过程

------满足爬虫的停止条件时或无法获取新的url时停止爬。

    一般url标准中只会允许一部分ASCII字符入数字、字母、部分符号等,如果是汉字或以下特殊字符比如:&等就需要编码。

    服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response。浏览器收到服务器的Response信息后,会对信息进行相应处理,然后展示。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 爬虫背景知识: 大数据时代?数据怎么来的呢?企业产生的数据:大的公司会根据用户的行为记录数据,数据会被大公司利用,...
    BaiBao丶阅读 339评论 0 0
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    liuzhijun阅读 1,447评论 3 45
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    2pro阅读 198评论 0 0
  • 学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明...
    小姐姐吖_6271阅读 321评论 0 3
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 130,229评论 2 7

友情链接更多精彩内容