登录注册写文章

多线程爬虫

暴走的金坤酸奶味

多线程爬虫

多线程爬虫

Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;

队列是线程间最常用的交换数据的形式

python下多线程的思考

对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的，因此在满足使用条件下，建议使用队列

初始化： class (FIFO 先进先出)

import queue
dataqueue = queue.Queue(maxsize=40)

包中的常用方法:

Queue.qsize() 返回队列的大小
Queue.empty() 如果队列为空，返回True,反之False
Queue.full() 如果队列满了，返回True,反之False
Queue.full 与 maxsize 大小对应
Queue.get(block,timeout) 获取队列，timeout等待时间
Queue.put(值) 将一个值放入队列中

#maxsize:指定队列中能够存储的最大的数据量
dataqueue = queue.Queue(maxsize=40)

for i in range(0,50):
     if not dataqueue.full():
         dataqueue.put(i)

#判断队列是否为空
isempty = dataqueue.empty()
print(isempty)

 #判断队列是否存满了
sfull = dataqueue.full()
print(isfull)

#查看对列的大小
size = dataqueue.qsize()
print(size)

#FIFO(先进的先出)
print(dataqueue.get())

步骤

创建一个任务队列：存放的是带爬取的url地址
创建爬取线程,执行任务的下载
创建数据队列:存放爬取线程获取的页面源码
创建解析线程:解析html源码,提取目标数据,数据持久化

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

爬虫系列（十五）：多线程爬虫
多线程糗事百科案例案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准...
文子轩阅读 2,394评论 0赞 0
多线程爬虫
多线程爬虫有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢...
久壑阅读 2,707评论 0赞 2

极迅云课（服务端教案）
一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容【Python简介】： Python 是一个...
_小老虎_阅读 11,323评论 0赞 10
多线程爬虫（完善版）
import threading from queue import Queue import time from...
佐卡ww阅读 4,547评论 1赞 0
《岛上书店》20
都说爱情是奢侈品，其实爱情是必需品，没有高低之分，没有贵贱之别，都说真心换真心。
舟舟小慢阅读 1,027评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文