爬虫学习笔记_通用爬虫

1.通用爬虫框架概念：

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

2.爬虫的设计思路：

-2.1. 首先确定需要爬取的网页URL地址。

-2. 通过HTTP/HTTP协议来获取对应的HTML页面。

-3. 提取HTML页面里有用的数据： a. 如果是需要的数据，就保存起来。 b. 如果是页面里的其他URL，那就继续执行第二步。

3.抓取流程：

a) 首选选取一部分已有的URL，把这些URL放到待爬取队列。

b) 从队列里取出这些URL，然后解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器。

之后把这个爬过的URL放入已爬取队列。

c) 分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。

4.局限：

1.通用搜索引擎所返回的结果都是网页，而大多情况下，网页里90%的内容对用户来说都是无用的。

2.不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对具体某个用户的搜索结果。

3.万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎对这些文件无能为力，不能很好地发现和获取。

4.通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。

最后编辑于：2018.07.16 09:03:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

爬虫学习笔记_通用爬虫

爬虫学习笔记_通用爬虫

1.通用爬虫框架概念：

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

2.爬虫的设计思路：

-2.1. 首先确定需要爬取的网页URL地址。

-2. 通过HTTP/HTTP协议来获取对应的HTML页面。

-3. 提取HTML页面里有用的数据： a. 如果是需要的数据，就保存起来。 b. 如果是页面里的其他URL，那就继续执行第二步。

3.抓取流程：

a) 首选选取一部分已有的URL，把这些URL放到待爬取队列。

b) 从队列里取出这些URL，然后解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器。

之后把这个爬过的URL放入已爬取队列。

c) 分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。

4.局限：

相关阅读更多精彩内容

友情链接更多精彩内容

爬虫学习笔记_通用爬虫

1.通用爬虫框架概念：

通用网络爬虫 是 捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

2.爬虫的设计思路：

-2.1. 首先确定需要爬取的网页URL地址。

-2. 通过HTTP/HTTP协议来获取对应的HTML页面。

-3. 提取HTML页面里有用的数据： a. 如果是需要的数据，就保存起来。 b. 如果是页面里的其他URL，那就继续执行第二步。

3.抓取流程：

a) 首选选取一部分已有的URL，把这些URL放到待爬取队列。

b) 从队列里取出这些URL，然后解析DNS得到主机IP，然后去这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本地服务器。

之后把这个爬过的URL放入已爬取队列。

c) 分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。

4.局限：

相关阅读更多精彩内容

友情链接更多精彩内容

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。