爬虫构思

        爬虫的基本实现原理是通过URL访问,来获取目的服务器的特定内容;

        爬虫的主体架构大概可以分为几个部分:通过URL获取返回内容、分析内容提取可继续访问的URL、分析内容提取特定内容,本地化;

        通过URL获取返回内容在一般的程序语言中均有成熟的库支持,需要注意的一点是目前很多系统都存在防止频繁访问的控制,特别是部署在云平台的项目均自带此功能;由于该控制是直接封源地址,想要解决该问题,需要用到代理,同样,代理也在限制范围内,所以需要有一个模块用于专门搜寻免费代理服务器;

        对于需要获取特定页面特定内容的爬虫来说,目标服务器内可能存在大量不存在所需内容的页面,所以需要设立一个过滤机制,将有价值的页面链接单独存放,以方便后续访问,同样,为了避免重复访问,可以对已经爬取过的页面进行标记;

        爬虫需要获取的信息种类不一,可以是图片、视频、文章等。这些内容都有在页面中,一般都存在于特定的区域,爬虫需要定位到这些位置,后进行内容获取;

        在获取到数据后,本地化是一个重要的模块,杂乱无章的保存方式让爬虫毫无意义。初步处理可以使用数据源的标题等进行标记,进一步处理,可能需要对内容添加标签,进行更新详细的分类;更进一步的分析,则需要对内容编写一套特定的逻辑,这个将会是一个更大的工程。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,298评论 2 26
  • 《这就是搜索引擎》这本书的第二章是关于爬虫的,干货很多(文章几乎没有废话,所以复制居多),可以参考搜索引擎是如何构...
    SeanCheney阅读 2,175评论 0 20
  • 很喜欢办公室两个小姑娘,正谈论给其中一个介绍对象,关键的条件又是要有房有车,听同事反问我以后找儿媳也要看对方条件...
    心存一念阅读 255评论 1 6
  • 在我印象中,我最怕的是您,其次是我爷爷,你们俩是亲·父子俩,总爱板着脸,不苟言笑,若是我做错了事,他们瞪我一眼我都...
    米粥xy阅读 315评论 0 1
  • 昨晚睡觉的时候拿起旧手机打开微博,突然发现有两条未读消息,原本还以为是哪个关注了的博主发了评论,作为一个消灭红点强...
    小生大琳阅读 919评论 1 2

友情链接更多精彩内容