爬虫无限爬取出现的原因

今天写了一个爬虫要爬取的页面是这样的

爬取所有年份的所有的奖项，因为数字不能获取到，于是

将所有的信息进行了循环拼接，

在下一级的方法中进行分析找到要用的detail_url

于是，程序开始了无限制的爬取，我等的都快崩溃了，原来是上面的self.start_urls在用完后没有进行及时的清空，于是当数量越多，页数越多的情况下，重复的次数就会越多，bug虽小，但是还是很折磨人的。

！！！全局数组在用完后一定要清空啊。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 179,688评论 25赞 708
Python爬虫-用Scrapy框架实现漫画的爬取
在之前一篇抓取漫画图片的文章里，通过实现一个简单的Python程序，遍历所有漫画的url，对请求所返回的html源...
msq3阅读 13,047评论 14赞 88

Python爬虫之—微信实时爬取电影咨询
本文将介绍如何使用爬虫在微信对话中实现实时的电影咨询爬取功能，希望和大家一起来分享” 1. 撩妹起源俗话说的好：...
Python爬虫学习阅读 1,199评论 1赞 8
读《北鸢》，知不同人物的命运
终于读完了葛亮的小说《北鸢》。这本小说购买于2016年12月，但是读完这本书我却用了9个月的时间。不是不喜欢这...
Amberdream阅读 2,565评论 0赞 2
哈尔滨麦道格宠物摄影
我就是那树，重生的绿树；而你是我永恒的阳光，在漫长的天边守望。一个燃烧的午后，大地谱写了树与阳光的相遇，...
140395b35924阅读 156评论 0赞 0

赞1赞

赞赏

手机看全文