《哪吒》最近挺火的。于是,我就想看看关于《哪吒》的好评。
打开豆瓣,找到短评,试着开始用python爬取数据。可是,折腾一波之后,发现了这个。
豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。
登录状态下,按网页按钮点击“后页”,参数“start”最多为480,也就是20*25=500条;非登录状态下,最多为200条。
行吧,500条就500条吧,Let's go。
整个过程:
结果展示:
总结来了
我把文章中的一些重要的内容,总结在了下面的一张图里,方便大家保存、查阅。
关注公众号【小痴印记】,获取源码。
-END-