一个简单的网络爬虫

什么是网络爬虫

简单的说,网络爬虫就是一种自动抓去互联网上资源的程序。

简单的网络爬虫

简单的网络爬虫原理就是使用特定的 url 作为种子,通过一定的规则去获取网页上的所需要的信息和新的 url,并对新的 url 进行爬取。

简单的网络爬虫的架构

如下图,是简单网络爬虫的主要架构。主要分为三部分: url解析器,网页下载器,网页解析器。

pp1-简单的爬虫架构.PNG

url 解析器 :负责管理待抓取的 url 集合以及抓取的 url 集合。其中包括:防止重复抓取,防止循环抓取等。
网页下载器:将已经抓取的 url 对应的网页下载下来,供给网页解析器使用。
网页解析器:主要的功能是获取下载的网页中的目标数据以后生成新的url 集合给 url 管理器。

简单网络爬虫的工作流程

简单爬虫的运行流程.PNG

写一个简单的网络爬虫

以抓取百度百科中的 python 词条页面的超链接为例,代码使用python语言。

url 管理器

url 管理器主要是管理 url 集合,这里使用了 python 的 set() 集合,因为 set() 里面的不存在相同元素。

class UrlManager(object):
def __init__(self):
    #创建待爬取和已爬取url集合
    self.new_urls = set()
    self.old_urls = set()
#添加新的url到待爬取url集合    
def add_new_url(self,url):
    if url is None:
        return
    if url not in self.new_urls and url not in self.old_urls:
        self.new_urls.add(url)
#判断是否待爬取集合为空        
def has_new_url(self):
    return len(self.new_urls) != 0
 #从待爬取集合中取出一个url 
def get_new_url(self):
    new_url = self.new_urls.pop()
    self.old_urls.add(new_url)
    return new_url
#往待爬取集合添加新的url
def add_new_urls(self,urls):
    if urls is None or len(urls) == 0:
        return 
    for url in urls:
        self.add_new_url(url)

网页下载器

这里是使用 python 的基础库 urllib2.urlopen() 方法下载 url对于网页。

import urllib2
class HtmlDownloader(object):
def download(self,url):
    if url is None:
        return None
    #直接请求
    response = urllib2.urlopen(url)
    #获取状态码,返回200代表下载成功
    if response.getcode()!= 200:
        return None;

    return response.read()

网页解析器

这里使用了python 的库— BeautifulSoup,其主要的功能是从网页抓取数据,之后从抓取到的数据找到目标数据以及新的新的url集合给url管理器。代码如下:

from bs4 import BeautifulSoup
import re
import urlparse

class HtmlParse(object):
      #使用BeautifulSoup解析网页下载器下载的网页数据
      def parse(self,page_url,html_cont):
            if page_url is None or html_cont is None:
               return
            soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf8')
            #获取新的url集合
            new_urls = self._get_new_urls(page_url,soup)
            #获取目标数据
            new_data = self._get_new_data(page_url,soup)
            return new_urls,new_data
        #获取新的待爬取url
        def _get_new_urls(self, page_url, soup):
            new_urls = set()
            #使用正则表达式从BeautifulSoup获取的数据中找到新的url
            #页面的url格式/item/%E8%9C%98%E8%9B%9B/8135707
            #这里的soup.find_all() 可获取全部符合条件的标签对象
            links = soup.find_all('a',href =re.compile(r"/item/[%A_Z0_9]+"))
            for link in links:
            new_url = link['href']
            #生成完整的的url:http://baike.baidu.com/item/%E8%9C%98%E8%9B%9B/8135707
            new_full_url = urlparse.urljoin(page_url,new_url)
            new_urls.add(new_full_url)
            return new_urls
        #获取目标数据,这里只是获取了标签<dd class="lemmaWgt-lemmaTitle-title">和<div class_="lemma-summary">中的内容
        def _get_new_data(self, page_url, soup):
            res_data = {}
            #url
            res_data['url'] = page_url
            #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
            #这里的soup.find() 将获取第一个符合条件的标签对象
            title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1") 
            res_data["title"] = title_node.getText()
            #<div class="lemma-summary" label-module="lemmaSummary">
            #这里的soup.find() 将获取第一个符合条件的标签对象
            summary_node = soup.find("div",class_="lemma-summary")
            res_data["summary"] = summary_node.getText()
            return res_data

数据输出

这里只是将获取的数据输出到html文件上,当然也可以输出到其他地方如数据库,本地文件,看具体需要了。

 class HtmlOutputer(object):
def __init__(self):
    self.datas = []

def collect_data(self,data):
    if data is None:
        return
    self.datas.append(data)
    
def output_html(self):
    fout = open('output.html','w')
    fout.write("<html>")
    fout.write("<body>")
    fout.write("<table>")
    
    #默认是ascii,为了防止中文乱码,需要转成utf8
    for data in self.datas:
        fout.write("<tr>")
        fout.write("<td>%s</td>" % data['url'])
        fout.write("<td>%s</td>" % data['title'].encode('utf8'))
        fout.write("<td>%s</td>" % data['summary'].encode('utf8'))
        fout.write("</tr>")
        
    fout.write("</table>")
    fout.write("</body>")
    fout.write("</html>")

最后,将所有的类连接起来:

#不要忘记引入其他类
from baike_py import html_downloader, html_outputer, html_parser
from baike_py import url_manager

class SpiderMain(object):
def __init__(self):
    self.urls =url_manager.UrlManager()
    self.downloader = html_downloader.HtmlDownloader()
    self.parser = html_parser.HtmlParse()
    self.outputer = html_outputer.HtmlOutputer()

def craw(self, root_url):
    count = 1
    self.urls.add_new_url(root_url)
    while self.urls.has_new_url():
        try:
            new_url = self.urls.get_new_url()
            print ("craw %d : %s" % (count,new_url))
            html_cont = self.downloader.download(new_url)
            new_urls,new_data = self.parser.parse(new_url,html_cont)      
            self.urls.add_new_urls(new_urls)
            self.outputer.collect_data(new_data)
            #这里只是抓取了1000条url数据
            if count == 1000:
                break
            count = count + 1
        except :
            print (“craw failed”)    
    self.outputer.output_html()

if __name__=="__main__":
root_url = "http://baike.baidu.com/item/Python"
obj_spider = SpiderMain()
obj_spider.craw(root_url)

总结

  • python 语言有很多相关的库,用起来很方便,功能也很强大,如 对于url
    下载网页的方式这里只是最简单的方法。当然,了解了其中的原理用什么语言都是一样的。
  • 以上只是一个简单爬虫,只是抓取静态html上的url和目标数据。实际上网页有很多资源是通过JavaScript 等动态方式显示出来的,这样还需要做额外处理;
  • 对于网络爬虫还需要有更多学习的地方,如应对反爬取的策略,代理访问,有的网站还需要使用cookie,分布式爬取等等。弱水三千,道阻且长。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容