我这样抓取百度地图的数据

最近公司需要抓取百度地图中所有药店数据,本人比较愚笨,断断续续花了2天时间才完成此次任务。期间遇到的各种小坑,但目前进度良好。以下记录的是我进行任务的整个流程。

1、熟悉百度API,调用API获得数据。

既然要拿百度地图的数据,那自然首选在地图API入手。经过了解,发现了 place api 可以使用。

Place API 提供区域检索POI服务、POI详情服务与团购信息检索服务、商家团购详情查询。

区域检索POI服务提供三种区域检索方法:

城市内检索(对应JavaScriptAPI的Search方法)

矩形检索(对应JavaScript API的SearchInBound方法)

圆形区域检索(对应JavaScript的SearchNearBy方法)。

调用此API也非常简单,只需要用PHP生成一条URL,并生成get请求即可得到数据。由于API的每次调用默认只返回10条信息,所以为了能够获得更多的信息,需要设置page_num参数进行翻页操作。这时候使用一个递归函数完成比较好。

class DataCollector{
public function getShopDataByCity($cityName,$keyword){
    $this->_getShopDataByCity($cityName,$keyword);
    return $this->shopData;
}
private function _getShopDataByCity($cityName,$keyword,$page_num=0){
    $url = "http://api.map.baidu.com/place/v2/search?q=$keyword&region=$cityName&output=json&ak=597a11f21bf9dfd3ab95632271b3832c&page_num=$page_num";
    $curl = new \Common\Lib\Curl();
    $result = $curl->get($url);
    $resultData = json_decode($result);

    if($resultData->results != null){
        foreach ($resultData->results as $value) {
            $value = $this->objectToArray($value);
            $this->shopData[] = $value;
        }
        //继续寻找下一页
        $this->_getShopDataByCity($cityName,$keyword,$page_num+1);
    }
    
}
}

运行一下,成功了返回数据。

2、发现数据不够,并填坑

然而当我换了几个城市名调用的时候,发现API返回的数据最多是760条,这远远是不够的。一个大城市的药店总数能超过5000,而一些二线城市的药店总数也能接近一千。看来百度在API上做了手脚,强行阻止了用户扒她的数据。于是我继续研究了她提供的API,发现给API支持矩形检索。好,那就试试吧。

public function getShopDataByBounds($bounds,$keyword){
    $this->_getShopDataByBounds($bounds,$keyword);
    return $this->shopData;
}
private function _getShopDataByBounds(array $bounds,$keyword,$page_num=0){
    $url = "http://api.map.baidu.com/place/v2/search?query=$keyword&bounds=$bounds[0],$bounds[1],$bounds[2],$bounds[3]&output=json&ak=".DataCollector::AK."&page_num=$page_num";
    $result = $this->curl->get($url);
    $resultData = json_decode($result);
    $this->msg= $resultData->message;

    if($resultData->results != null){
        foreach ($resultData->results as $value) {
            $value = $this->objectToArray($value);
            $this->shopData[] = $value;
        }
        //继续寻找下一页
        $this->_getShopDataByBounds($bounds,$keyword,$page_num+1);
    }
}

好了,如果bounds的经纬度间隔足够小,就能够拿到充足的数据。但是我们的大中国是由无数个小矩形组成的,这意味着获得全部的数据,就必须遍历无数的矩形。但显然没什么好办法,那就遍历下去吧。

3、内存溢出

我先使用上面的函数将中国这个大公鸡的头部拿下了,先用矩形框住公鸡头,在百度的拾取系统中找到矩形的左下角和右上角的大概的经纬度,分别是:(26,95)(31,122.6)。使用下面的循环反复调用getShopDataByBounds()函数,即可得到大公鸡头部的数据了。

for($i=26;$i<=31; $i = $i+0.1){
    for($j=95;$j<=122.6;$j=$j+0.1){
        $shopData = $cotor->getShopDataByBounds(array($i,$j,$i+0.1,$j+0.1),'药店');
    }
}
print_r($shopData);

但是很不幸的是,程序运行了10分钟左右,爆出了内存溢出的错误,函数被意外终断了。

4、解决问题

到底是怎么回事呢?其实重新审视一遍自己的代码,很快就发现了问题,_getShopDataByBounds()函数使用到了class中的一个私有数组resultData。每次我调用_getShopDataByBounds()后,这个数组并没有被重置,以至于它越来越大,到最后撑爆了内存,爆出严重错误。因此,需要在调用外部函数getShopDataByBounds()的时候,必须先重置数组。

public function getShopDataByCity($cityName,$keyword){
    unset($this->shopData);
    unset($this->msg);
    $this->_getShopDataByCity($cityName,$keyword);
    return $this->shopData;
}

再次运行程序,OK了再也不出现内存溢出情况了。

5、继续调优

程序安静平稳的运行了差不多两个小时,这是突然发现后面再也不能获取到数据了,而且在这两个小时的时间里产生的数据只有1W多,效率太慢了。其实获取不到数据,是由于百度限制了每个AK的调用次数,当AK的调用次数达到了上限,就不再能够获取数据了。所以程序程序必须要能智能切换AK,同时为了提高效率,还应该多起几个进程进行采集任务。小菜程序还需要花很多精力去完善才能变得健壮起来呢。
代码的精益求精能使得自己的能力更上一层楼,所以抓取数据的活在未来慢慢完善。就写到这了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容