找到合适的数据源是个大问题

随着抓取新浪微博上面人像数量越来越多,可以从聚合页上找到的优质相册已经没有了。

重新写了一个探测符合需求的爬虫,专门用来批量探测相册,目前已经探测了超过5万的推算枚举的uid,只找到8个合适的,命中率好差,还好,这个过程不需要人工干预,机器自己在跑。

发现两个新数据源,Instagram和pintrest,最后发现Instagram更靠谱,明天准备开始写爬虫!

今天,小朋友们一起抓了100不到,还算好吧~_~


PS:中午就喝多了!整个下午崩溃!

图片发自简书App
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容