爬虫根据使用场景分为通用爬虫和聚焦爬虫两种形式。
通用爬虫的主要目的是将互联网上的网页下载到本地,然后放到本地服务器中形成备份,再对这些网页做相关处理,最后提供一个用户检索接口。
通用爬虫的抓取流程
1.首先选取一部分已有的URL,把这些URL放到待爬取队列;
2.从待爬取队列里取出URL,解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器,最后把这个爬过的URL放入已爬取队列;
3.分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
通用爬虫的缺点:
1.只能提供和文本相关的内容(如HTML、Word、PDF)等,不能提供多媒体文件(如音乐、图片、视频)和二进制文件(如程序、脚本)等。
2.提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。
3.不能理解人类语义上的检索。
为了解决这个问题,聚焦爬虫出现了:
聚焦爬虫是"面向特定主题需求"的一种网络爬虫程序,聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。
举小栗子
采用python爬取qq代码如
1 import urllib
2
3 response = urllib.urlopen("http://www.qq.com/")
4
5 html = response.read()
6
7 print(html)
爬取结果部分截图
其中urllib是python内建的网络请求库。
下期聊聊urllib,敬请期待。