Python学习笔记-第20天: 异步爬虫(1)

第二十天 异步爬虫(1)

今天计划用Python开发一套异步爬虫框架用来补充blog内容,学习项目及练习源码地址:
GitHub源码

框架设计构想

框架允许不同的蜘蛛

因为每一个想爬取的站点内容结构基本上是不一致的,所以实际应用中针对各个站点建立不同的蜘蛛是必然的,所以爬虫框架能自动加载读取自定义的蜘蛛任务。每一个独立的蜘蛛应当有固定的编写模式可以让蜘蛛框架能使用。框架允许爬虫定义爬取字段的处理函数

蜘蛛任务应该包含:

  • 需要爬取的url或url规则,任务可以按照url规则一层一层的爬取
  • 指定解析爬取到的内容,到统一模板(存入数据库)的方法,如:解析标题,解析正文内容等

框架提供异步数据库接口供蜘蛛写入数据

项目中将框架和web项目放在一起,共用mysql处理函数

框架可以扩展一些常用的处理函数

基础包选择asyncio,aiohttp

aiohttp抓取页面的代码示例:

async def fetch(self, url,  headers=None, data_type='normal', proxy=None,**kw):
        try:
            print("url is {} proxy {}".format(url, proxy))
            async with self.session.get(url, headers=headers, proxy=proxy) as r:
                print("get {} status_code is {}".format(url, r.status))
                if r.status == 200:
                    if data_type == 'image':
                        data = await r.read()
                    else:
                        data = await r.text()
                    return data
                else:
                    print("get {} is err: {}".format(url, r.status))
                    return None
        except Exception as e:
            print("err is {}".format(e))
            return None

框架核心

主要思想是通过asyncio.Queue队列实现多任务的处理

  1. 自动从spider目录获取定义的蜘蛛
  2. 蜘蛛将要抓取的url推送到该队列
MAX_TASKS = 100
class Engine:
    def __init__(self,loop=None):
        self.loop = loop or asyncio.get_event_loop()
        self.max_tasks = MAX_TASKS
        self.conn = aiohttp.TCPConnector(family=socket.AF_INET,
                                         verify_ssl=False,
                                         use_dns_cache=True)
        self.session = aiohttp.ClientSession(loop=self.loop, connector=self.conn)
        self.q = asyncio.Queue(loop=loop, maxsize=MAX_TASKS)
        self.logger = get_logger('engine')
    

    def run(self):
        self.logger.info('Spider Engine started!')
        start_time = datetime.now()
        loop = asyncio.get_event_loop()
        try:
            loop.run_until_complete(self.crawler())
            # self.session.close()
        except KeyboardInterrupt:
            for task in asyncio.Task.all_tasks():
                task.cancel()
            loop.run_forever()
        finally:
            end_time = datetime.now()
            self.logger.info('Time usage: {}'.format(end_time - start_time))

    async def crawler(self):
        await self.init_spiders()
        workers = [asyncio.Task(self.worker(), loop=self.loop)
                   for _ in range(self.max_tasks)]
        await self.q.join()

        for w in workers:
            w.cancel()
        
    async def worker(self):
        try:
            while True:
                task = await self.q.get()
                if isinstance(task,Spider):
                    await task.start()
                elif isinstance(task,Seed):
                    data = await self.fetch(**task)
                    await task.callback(data)
                self.q.task_done()

                """告诉队列 处理完毕"""
        except asyncio.CancelledError:
            pass

    async def init_spiders(self):
        old_path = os.path.dirname(os.path.abspath(__file__))
        print('old_path',old_path)
        for dirName, subdirList, fileList in os.walk('/Users/lynn/xcode/LearnPython/src/webapp/kospider/spiders'):
            sys.path.append(dirName)
            for fname in fileList:
                if re.match(r'[_,a-z,A-Z]+.py$', fname):
                    mod_name = fname.split('.')[0]
                    mod = __import__(mod_name, globals(), locals())
                    for attr in dir(mod):
                        print(attr)
                        if attr != mod_name: # 定义蜘蛛的文件名必须和类名一致
                            continue
                        fn = getattr(mod, attr)
                        # Python如何判断fn是一个类呢?
                        spider = fn(self.q)
                        self.q.put_nowait(spider)
                                 
            if len(subdirList) > 0:
                subdirList = subdirList[1:]
        sys.path.append(old_path)

    async def fetch(self, url,  headers=None, data_type='normal', proxy=None,**kw):
        try:
            print("url is {} proxy {}".format(url, proxy))
            async with self.session.get(url, headers=headers, proxy=proxy) as r:
                print("get {} status_code is {}".format(url, r.status))
                if r.status == 200:
                    if data_type == 'image':
                        data = await r.read()
                    else:
                        data = await r.text()
                    return data
                else:
                    print("get {} is err: {}".format(url, r.status))
                    return None
        except Exception as e:
            print("err is {}".format(e))
            return None

蜘蛛代码示例

蜘蛛代码可以放置在任意位置,在初始化框架时指定

dict_filter = {
    # 旅行·在路上
    # '5AUzod': "电影",
    # 简书电影
    '1hjajt': "电影",
    # # # 美妆·护肤·穿搭
    '025246642a19': "时尚",
    # # # 美食
    'qqfxgN': "美食",
    # # # 电竞·游戏
    '0856231c8e98': "游戏",
    # # # 萌宠
    '88b891fe2acb': "体育",
    # # # 设计
    '3063e24c8622': "时尚",
    # # # 运动&健身
    'snqjhw': "体育",
    # # 摄影
    '7b2be866f564': "旅游"
}

headers_ = {
    "User-Agent": "Mozilla/5.0 (compatible; Baiduspider/2.0; +",
    "Referer": "http://www.jianshu.com"
}

class JianShu(Spider):
    def __init__(self,queue):
        self.q = queue

    async def start(self):
        print('JianShu Spider start')
        await asyncio.sleep(0.3)
        for url in dict_filter:
            seed = Seed('http://www.jianshu.com/c/{}'.format(url),self.next_parse,headers=headers_)
            self.q.put_nowait(seed)
        print('JianShu Spider end')

    async def next_parse(self,data):
        print(data)

需要继续完善,主要思路就是在这里指定url及生成新url的规则和处理函数,最终处理函数将要数据写入。

下一步

  1. 完善蜘蛛引擎可配置
  2. 蜘蛛父类提供一些常用方法
  3. 数据写入
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容