爬虫学习笔记_通用爬虫

1.通用爬虫框架概念:

    通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

2.爬虫的设计思路: 

-2.1. 首先确定需要爬取的网页URL地址。

 -2. 通过HTTP/HTTP协议来获取对应的HTML页面。 

-3. 提取HTML页面里有用的数据: a. 如果是需要的数据,就保存起来。 b. 如果是页面里的其他URL,那就继续执行第二步。


3.抓取流程:

    a) 首选选取一部分已有的URL,把这些URL放到待爬取队列。

    b) 从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器。

        之后把这个爬过的URL放入已爬取队列。

    c) 分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。

4.局限:

1.通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。

2.不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。

3.万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。

4.通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 从这篇博客开始来具体的说搜索引擎的每一个核心模块,先从爬虫系统说起吧! 先来个大纲: 1、从爬虫的设计角度看,优秀...
    雨林木风博客阅读 6,644评论 2 16
  • After the heat of the day, the evening came as a welcome ...
    Mr_Oldman阅读 586评论 0 1
  • 公司招聘一个初级员工,一个小姑娘来面试。 24岁,本科毕业,国内企业10个月类似工作经验。 陕西农村孩子,爷爷爸爸...
    87016e09fb5b阅读 158评论 1 0
  • 入梦诗 文/无言 春入梦,花入梦, 几处繁华悄入梦。 旧事暗香动。 风入梦,雨入梦, 欲醉对酒笑入梦! 踱步闲情重...
    无言_e1cc阅读 140评论 0 0
  • 看过几篇搭建的node.js的方法,但是在自己搭建过程中还是遇到了问题,所以总结出这篇搭建及问题处理的文章,希望可...
    夜_雪阅读 3,490评论 1 7