python多线程爬虫万能模板

  import threading # 多线程模块
  import queue # 队列模块
  import requests
  from lxml import etree
  import time
  import random    
  import json
  concurrent = 3  #采集线程数
  conparse = 3       # 解析线程                 
  class Parse(threading.Thread):  # 解析线程类
         # 初始化属性
        def __init__(self,number,data_list,req_thread,f):
            super(Parse ,self).__init__()
            self.number = number # 线程编号
            self.data_list = data_list # 数据队列
           self.req_thread = req_thread # 请求队列,为了判断采集线程存活状态
           self.f = f # 获取文件对象
           self.is_parse = True # 判断是否从数据队列里提取数据
        def run(self):
            print('启动%d号解析线程' % self.number)
            # 无限循环,
            while True:
                # 如何判断解析线程的结束条件
                for t in self.req_thread: # 循环所有采集线程
                    if t.is_alive(): # 判断线程是否存活
                        break
                else: # 如果循环完毕,没有执行break语句,则进入else
                    if self.data_list.qsize() == 0: # 判断数据队列是否为空
                        self.is_parse = False # 设置解析为False
                 # 判断是否继续解析
                if self.is_parse: # 解析
                    try:
                        data = self.data_list.get(timeout=3) # 从数据队列里提取一个数据
                    except Exception as e: #超时以后进入异常
                        data = None
                    # 如果成功拿到数据,则调用解析方法
                    if data is not None:
                        self.parse(data) # 调用解析方法
                else:
                    break # 结束while 无限循环
            print('退出%d号解析线程' % self.number)
        # 页面解析函数
        def parse(self,data):
            html = etree.HTML(data)
            # 获取所有段子div
            duanzi_div = html.xpath('//div[@id="content-left"]/div')
            for duanzi in duanzi_div:
                # 获取昵称
                nick = duanzi.xpath('./div//h2/text()')[0]
                nick = nick.replace('\n', '')
                # 获取年龄
                age = duanzi.xpath('.//div[@class="author clearfix"]/div/text()')
                if len(age) > 0:
                    age = age[0]
                else:
                    age = 0
                # 获取性别
                gender = duanzi.xpath('.//div[@class="author clearfix"]/div/@class')
               if len(gender) > 0:
                     if 'women' in gender[0]:
                        gender = '女'
                     else:
                       gender = '男'
               else:
                  gender = '中'
               # 获取段子内容
                content = duanzi.xpath('.//div[@class="content"]/span[1]/text()')[0].strip()
                # 获取好笑数
                good_num = duanzi.xpath('./div//span[@class="stats-vote"]/i/text()')[0]
                # 获取评论
                common_num = duanzi.xpath('./div//span[@class="stats-comments"]//i/text()')[0]
                item = {
                    'nick': nick,
                    'age': age,
                    'gender': gender,
                    'content': content,
                    'good_num': good_num,
                    'common_num': common_num,
                }
                self.f.write(json.dumps(item,ensure_ascii=False) + '\n')                                    
 class Crawl(threading.Thread):   # 采集线程类
     # 初始化
    def __init__(self,number,req_list,data_list):
        # 调用Thread 父类方法
        super(Crawl,self).__init__()
        # 初始化子类属性
        self.number = number
        self.req_list = req_list
        self.data_list = data_list
        self.headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'
    }
     # 线程启动的时候调用
     def run(self):
        # 输出启动线程信息
        print('启动采集线程%d号' % self.number)
        # 如果请求队列不为空,则无限循环,从请求队列里拿请求url
        while self.req_list.qsize() > 0:
            # 从请求队列里提取url
            url = self.req_list.get()
            print('%d号线程采集:%s' % (self.number,url))
            # 防止请求频率过快,随机设置阻塞时间
            time.sleep(random.randint(1,3))
            # 发起http请求,获取响应内容,追加到数据队列里,等待解析
            response = requests.get(url,headers=self.headers)
            if response.status_code == 200:
                self.data_list.put(response.text) # 向数据队列里追加 def main():
  # 生成请求队列
    req_list = queue.Queue()
    # 生成数据队列 ,请求以后,响应内容放到数据队列里
    data_list = queue.Queue()
    # 创建文件对象
    f = open('duanzi.json','w',encoding='utf-8')
    # 循环生成多个请求url
    for i in range(1,13 + 1):
        base_url = 'https://www.qiushibaike.com/8hr/page/%d/' % i
        # 加入请求队列
        req_list.put(base_url)
    # 生成N个采集线程
    req_thread = []
    for i in range(concurrent):
        t = Crawl(i + 1,req_list,data_list) # 创造线程
        t.start()
        req_thread.append(t)
    # 生成N个解析线程
    parse_thread = []
    for i in range(conparse):
        t = Parse(i + 1,data_list,req_thread,f) # 创造解析线程
        t.start()
        parse_thread.append(t)
    for t in req_thread:
         t.join()
        for t in parse_thread:
        t.join()
    # 关闭文件对象
    f.close() 
if __name__ == '__main__':
    main()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容

  • import threading from queue import Queue import time from...
    佐卡ww阅读 1,001评论 1 0
  • import threading from queue import Queue import time from...
    佐卡ww阅读 264评论 0 0
  • 一文读懂Python多线程 1、线程和进程 计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运...
    星丶雲阅读 1,443评论 0 4
  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,207评论 4 16
  • 指定解析器 表示使用的脚本语言是 bash其他脚本语言: 命令就是语句,语句就是命令 可以把语句直接罗列到脚本中,...
    stanf1l阅读 158评论 0 0