爬虫框架的五大基础模块

源码地址:https://github.com/fatezxl/reptileDemo

一、基础组件

  • URL管理器:
    管理已经爬取的url和新加入的url;
  • HTML下载器
    下载网页,此时需要注意网页编码;
  • 数据存储器
    将数据存储成文件,或者存储到数据库;
  • HTML解析器
    使用BeautifulSoup4进行HTML解析,提取相关的URL和当前页面的有效信息;
  • 爬虫调度器
    协调以上四个模块组件;

二、组件源码分析

1、URL管理器

   #coding:utf-8
class UrlManager(object):
    '''
    URL管理器
    '''
    def __init__(self):
        self.new_urls = set() #未爬取URL集合
        self.old_urls = set() #已爬取URL集合

    def has_new_url(self):
        """
        判断是否有未爬取的URL
        :return:
        """
        return self.new_url_size() != 0

    def get_new_url(self):
        """
        获取一个人未爬取的URL
        :return:
        """
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

    def add_new_url(self,url):
        '''
        将新的URL添加到未爬取的URL集合中
        :param url: 单个URL
        :return:
        '''
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self,urls):
        '''
        将新的URL添加到未爬取的URL集合中
        :param urls: url集合
        :return:
        '''
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def new_url_size(self):
        '''
        获取未爬取URL集合的大小
        :return:
        '''
        return len(self.new_urls)

    def old_url_size(self):
        '''
        获取已经爬取URL集合的大小
        :return:
        '''
        return len(self.old_urls)

2、HTML下载器

#coding:utf-8
import requests
class HtmlDownloader(object):
    '''
    HTML下载器
    '''
    def download(self,url):
        if url is None:
            return None
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {
            'User-Agent':user_agent
        }
        r = requests.get(url,headers=headers)
        if r.status_code == 200:
            # r.encoding = 'utf-8'
            return r.text.encode('utf-8')
        return None

3、数据存储器

#coding:utf-8
import codecs
class DataOutput(object):
    '''
    数据存储器
    '''
    def __init__(self):
        self.datas = []

    def store_data(self,data):
        '''
        将解析出来的数据存储在内存中
        :param data:
        :return:
        '''
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        '''
        将存储的数据输出为指定的文件格式
        :return:
        '''
        fout = codecs.open('baike.html','w',encoding='utf-8')
        fout.write('<html>')
        fout.write("<head><meta charset='utf-8'/></head>")
        fout.write("<body>")
        fout.write("<table>")
        fout.write("<tr><th>this page</th><th>title</th><th>1366_768</th><th>1680_1050</th></tr>")

        print '数组长度:%d' % self.datas.__len__()
        print '@#' * 30
        for data in self.datas:
            fout.write("<tr>")
            if data['page_url'] != None:
                fout.write("<td><a href='%s'>this_page</a></td>" % data['page_url'])
                print data['page_url']
            if data['title'] != '':
                fout.write("<td>%s</td>" % data['title'])
                print data['title']
            if data['imgurl_1366_768'] != '':
                fout.write("<td><a href='%s'>1366HD</a></td>" % data['imgurl_1366_768'])
                print data['imgurl_1366_768']
            if data['imgurl_1680_1050'] != '':
                fout.write("<td><a href=' %s '>1080BD</a></td>" % data['imgurl_1680_1050'])
                print data['imgurl_1680_1050']
            fout.write("</tr>")
            self.datas.remove(data)
        fout.write("</table>")
        fout.write("</body>")
        fout.write('</html>')
        fout.close()

4、HTML解析器

#coding:utf-8
import re
import urlparse
from bs4 import  BeautifulSoup

class HtmlParser(object):
    '''
    HTML解析器
    '''
    def parser(self,root_url,page_url,html_cont):
        '''
        用于解析网页内容,抽取URL和数据
        :param page_url: 下载页面的URL
        :param html_cont: 下载的网页内容
        :return: 返回URL和数据
        '''
        if page_url is None or html_cont is None:
            return
        soup = BeautifulSoup(html_cont,'html.parser')#加上from_encoding='utf-8'会弹出警告
        new_urls = self._get_new_urls(page_url,soup)
        new_data = self._get_new_data(root_url,page_url,soup)
        print '***' * 30 + '当前页面:'
        print page_url
        print '--'*30 + 'url集合'
        print new_urls
        print '--' * 30 + 'data数据'
        print new_data
        return new_urls,new_data

    def _get_new_urls(self,page_url,soup):
        '''
        抽取新的URL集合
        :param page_url: 下载页面的URL
        :param soup: soup
        :return: 返回新的URL集合
        '''
        new_urls = set()
        #抽取符合要求的a标记
        # 注意:此处规则很重要,关乎爬取的内容,此处举例:/fengjing/,/bizhi/7171_88712_2.html
        links = soup.find_all('a',href=re.compile(r'/\w+/'))
        links_2 = soup.find_all('a', href=re.compile(r'/bizhi/\d+/.html'))
        for link in links:
            #提取href属性
            new_url = link['href']
            #拼接成完整网址
            new_full_url = urlparse.urljoin(page_url,new_url).encode('utf-8')
            new_urls.add(new_full_url)
        for link2 in links_2:
            # 提取href属性
            new_url2 = link2['href']
            # 拼接成完整网址
            new_full_url2 = urlparse.urljoin(page_url, new_url2).encode('utf-8')
            new_urls.add(new_full_url2)
        return new_urls

    def _get_new_data(self,root_url,page_url,soup):
        '''
        抽取有效数据
        :param root_url:根地址
        :param page_url: 下载页面的URL
        :param soup:
        :return: 返回有效数据
        '''
        data = {
            'title' : '',
            'page_url' : '',
            'imgurl_1366_768' : '',
            'imgurl_1680_1050' : ''

        }
        #请求页面的地址
        data['page_url'] = page_url

        #图片标题
        #TODO 筛选存在问题
        test = soup.find(id='titleName')
        print 'title'
        print test
        # print test.string
        if test != None:
            print '不是none'
            print test.string

            title = soup.find(id='titleName').string
            print '编码之后:'
            print title
            data['title'] = title

            # 图片的地址
            # 1366x768
            if soup.find(id='1366x768')!=None:
                imgurl_136_768 = soup.find(id='1366x768')['href']
                new_full_url_1366_768 = urlparse.urljoin(root_url, imgurl_136_768)
                data['imgurl_1366_768'] = new_full_url_1366_768.encode('utf-8')
            #1680_1050
            if soup.find(id='1680x1050') != None:
                imgurl_1680_1050 = soup.find( id='1680x1050')['href']
                new_full_url_1680_1050 = urlparse.urljoin(root_url, imgurl_1680_1050)
                data['imgurl_1680_1050'] = new_full_url_1680_1050.encode('utf-8')


        # 参考案例
        # title = soup.find('i',class_='business-icon').find('img')['alt']
        # data['title'] = title.get_text()
        # summary = soup.find('div',class_='lemma-summary')
        # #获取tag中包含的所有文本内容,包括子孙tag中的内容,并将结果作为Unicode字符串返回
        # data['summary'] = summary.get_text()
        return data

5、爬虫调度器

#coding:utf-8

#导入之前的所有文件
from DataOutput import DataOutput
from HtmlParser import HtmlParser
from HtmlDownloader import HtmlDownloader
from URLManager import UrlManager

class SpiderMan(object):
    def __init__(self):
        self.manager = UrlManager()
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()
        self.output = DataOutput()

    def crawl(self,root_url):
        #添加入口URL
        self.manager.add_new_url(root_url)
        #判断url管理器中是否有新的url,同时判断抓取了多少个url,抓取数据数量限定在0——100之间
        while(self.manager.has_new_url() and self.manager.old_url_size() < 100):
            try:
                #从URL管理器获取新的url
                new_url = self.manager.get_new_url()
                #HTML下载器下载页面
                html = self.downloader.download(new_url)
                #HTML解析器抽取网页数据
                new_urls,data = self.parser.parser(root_url,new_url,html)
                #将抽取的url添加到URL管理器中
                self.manager.add_new_urls(new_urls)

                print '有待爬取的url数量:%d' % self.manager.new_url_size()

                #数据存储器存储文件
                self.output.store_data(data)
                print "已经抓取%s个链接"%self.manager.old_url_size()
            except Exception as e:
                print "crawl failed"
                print e.message
            #数据存储器将文件输出成指定格式
        self.output.output_html()

if __name__ == "__main__":
    spider_man = SpiderMan()
    spider_man.crawl("http://desk.zol.com.cn/")
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,633评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,815评论 25 707
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,300评论 1 99
  • 【日更016】 《未来简史:从智人到智神》,终于断断续续读完了第一遍,其实是很不好的习惯,因为拖得太久,常常是看到...
    唐斩2086阅读 341评论 0 1
  • 倒计时36天 无所事事的一天
    JOORUI阅读 217评论 0 0