随着抓取新浪微博上面人像数量越来越多,可以从聚合页上找到的优质相册已经没有了。
重新写了一个探测符合需求的爬虫,专门用来批量探测相册,目前已经探测了超过5万的推算枚举的uid,只找到8个合适的,命中率好差,还好,这个过程不需要人工干预,机器自己在跑。
发现两个新数据源,Instagram和pintrest,最后发现Instagram更靠谱,明天准备开始写爬虫!
今天,小朋友们一起抓了100不到,还算好吧~_~
PS:中午就喝多了!整个下午崩溃!
随着抓取新浪微博上面人像数量越来越多,可以从聚合页上找到的优质相册已经没有了。
重新写了一个探测符合需求的爬虫,专门用来批量探测相册,目前已经探测了超过5万的推算枚举的uid,只找到8个合适的,命中率好差,还好,这个过程不需要人工干预,机器自己在跑。
发现两个新数据源,Instagram和pintrest,最后发现Instagram更靠谱,明天准备开始写爬虫!
今天,小朋友们一起抓了100不到,还算好吧~_~
PS:中午就喝多了!整个下午崩溃!