由于想利用百度指数做点东西,就准备下载点儿百度指数数据,去看了一下,居然不让下载,然后就打算用python爬一下,指数数据居然是图片,百度,算你狠!
没有办法,要用没有办法,只能硬着头皮上了~
本来想着这个问题应该有人遇到过,解决了,就去网上找代码,找了一圈,发现代码都存在各种各样的问题,可能平台不一样吧。
最为坑爹的是,基本都是爬最近7天,30天什么的,这个就算能爬的有什么用,靠人不如求己。
总结了一下百度指数爬虫的难点:
1. 登陆,百度指数必须要登陆才能搜索,所以首先需要实现登陆。
2. 获取自定义时间范围内指数,而非固定时间指数
3. 获取显示指数区域的整体图片
4. 获取整体图片中的指数显示图片
5. 识别指数图片中的指数数字
11699
经过大约2周的时间的反复修改和调试,终于实现全部功能。
只需要提供关键词需求列表 以及 对应的时间区间要求即可查询要求区间的指数每日的数据。
数据要求格式:
最终实现的数据结果: