登录注册写文章

生产者消费者模型爬取某金融网站数据！Python无所不爬！

Python程序猿

生产者消费者模型爬取某金融网站数据！Python无所不爬！

那么这个模型和爬虫有什么关系呢？其实，爬虫可以认为是一个生产者，它不断从网站爬取数据，爬取到的数据就是食物；而所得数据需要消费者进行数据清洗，把有用的数据吸收掉，把无用的数据丢弃。学习资料也可以加下Python扣扣裙：四八三五四六四一六自己下载学习下

以上便是对生产者消费者模型的简单介绍了，下面针对本次爬取任务予以详细说明。

分析站点

http://www.cfachina.org/cfainfo/organbaseinfoServlet?all=personinfo

从网址及网页内容可以提取出以下信息：

网址

获取机构名称

获取机构信息对应的网页数量

每个机构的数据量是不等的，幸好每个页面都包含了当前页面数及总页面数。使用以下代码即可获取页码数。

获取当前页面从业人员信息

确定爬取方案

一般的想法当然是逐页爬取主页信息，然后获取每页所有机构对应的网页链接，进而继续爬取每个机构信息。

但是由于该网站的机构信息网址具有明显的规律，我们根据每个机构的编号便可直接得到每个机构每个信息页面的网址。所以具体爬取方案如下：

main

主函数用于创建和启动生产者线程和消费者线程，同时为生产者线程提供机构编号队列。

源码

源码图如果看不清，请保存到本地观看！

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Python网络爬虫3 - 生产者消费者模型爬取某金融网站数据
博客首发于www.litreily.top 应一位金融圈的朋友所托，帮忙写个爬虫，帮他爬取中国期货行业协议网站中所...
litreily阅读 932评论 0赞 6
徐小平说和我说
最近偶然看到徐小平发布的几个人生观点，竟然发现传达的很多意思和我的观点很相似。很开心，随便写了点字。 1.徐小平说...
三体合一阅读 249评论 0赞 1

隐瞒父母：不想最爱的人陪我痛苦
毕业前的那段日子我过得猪狗不如，一边写毕业论文，一边帮老师翻译文献，另外还要吭哧吭哧地写公号，经常忙到昏天暗地以至...
七咪阅读 364评论 3赞 6
生活
春夏秋冬各有景人生百态亦有求一季盛放一季逝人生自古两难全
青蛙z阅读 284评论 5赞 6

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文