PHP解析15w行kml文件

要解析kml文件,首先是必须要知道kml是什么,其次还要了解kml的语法,然后才能谈得上解析它,这些都会了之后,假如我们遇到了10多(M)的文件的时候,又该如何来解析呢,下面我们就从这几个方面来入手,详细了解如何解析15w行的kml文件。


一、kml是什么

根据百度百科,我们可以知道:

KML,是标记语言(Keyhole Markup Language)的缩写,最初由Keyhole公司开发,是一种基于XML 语法与格式的、用于描述和保存地理信息(如点、线、图像、多边形和模型等)的编码规范,可以被 Google Earth 和 Google Maps 识别并显示。

上面说了这么一大堆,说白了就是一句话:kml就是一种xml格式的文件。因此我们就可以使用PHP对xml文件的解析函数或者是类来解析它,现在我们只是知道了可以使用像simplexml_load_string()这样的函数来解析kml文件,但是kml文件中数据的结构到底是怎么样的,我们一点也不了解,所以我们要学习kml文件的语法。

说到kml语法的话,因为它被谷歌公司广泛采用,那我们就要会翻墙----免费翻墙。现在我们假定所有的阅读的人,都已经知道如何翻墙了。

二、kml的语法

翻墙之后直接输入:KML Document 进行搜索,也可以点击这个网址kml文档,可以大致做一个了解。下面我们就需要看我们的kml文件有哪些东西,如下图:

15万行数据的kml文件

接着就是具体的样式数据和经纬度数据,如下图:

区域和线的样式
区域数据的格式
线数据的格式

现在我们对我们自己需要解析的数据格式已经了解了,下面我们就来解析这个kml文件。终于到正题了。

三、解析kml

我们可以自己封装一个方法,只需要传入文件名就可以解析kml文件,先来代码:

/**
 * 解析kml文件返回一个解析后的数据
 * @param $file
 * @return array
 */
function parseKML($file)
{
    // 获得文件内容
    $xml = simplexml_load_file($file);
    // 输出KML数据数组
    $result = array();
    
    // 读取document标签
    $values = $xml->Document;
    $floderArr = array();
    foreach ($values->Folder as $folder) {
        $floderArr[] = $folder;
    }

    // 读取style标签
    $styleArrs = array();
    foreach ($values->Style as $style) {
        $jsonStyle = xmlToArray($style);
        $key = $jsonStyle["@attributes"]["id"];
        $styleArrs[$key] = $jsonStyle;
     }

    // 分别获得线和区域的数据
    $placeMarksCache = array();
    foreach ($floderArr as $key => $value) {
        $name = (string)$value->name;
        if ($name == 'Area Features') {
            foreach ($value->Placemark as $placeMark) {
                $placeMarksCache['area'][] = $placeMark;
            }
        } else {
            foreach ($value->Placemark as $placeMark) {
                $placeMarksCache['lines'][] = $placeMark;
            }
        }
    }

    // 循环输出数据
    foreach ($placeMarksCache as $k => $place){
        // 获取要输出的点集
        $placeMarkOutCache = array();
        // 将点集read出来
        foreach ($place as $placeMark) {
            $styleCache = (string)$placeMark->styleUrl;
            $styleCache = str_replace("#", "", $styleCache);
            $styleCache = $styleArrs[$styleCache];
            if (!$styleCache) {
                $styleCache = "00000000";
            }
            // 获取点集合
            $strCache = $placeMark->Polygon;
            if ($strCache) {
                $styleCache = "#" . $styleCache["PolyStyle"]["color"];
                $strCache = (string)$strCache->outerBoundaryIs->LinearRing->coordinates;
                $strCache = explode("\n              ", trim($strCache));
            } else {
                $styleCache = "#" . $styleCache["LineStyle"]["color"];
                $strCache = (string)$placeMark->LineString->coordinates;
                $strCache = explode("\n          ", trim($strCache));
            }
            // 分割点集 作为数组进行保存
            foreach ($strCache as $sc) {
                $args = explode(",", $sc);
                $coords[] = array($args[0], $args[1], $args[2]);
            }
            // 将color 和 points 作为对象保存到result中
            $result[$k][] = array("color" => $styleCache, "points" => $coords);
            // 将这个数组清空
            $coords = array();
       }
   }
   // 最后返回集合点数据
   return $result;
}

初步的代码已经完成,但是这样的解析方式在数据量少的时候还可以接受,但是当数据量达到了15W行的时候,无论怎样写,都会出现了内存溢出的问题,由此就引出了,采用分页的方式来进行解析kml文件的办法。

四、 采用分页的方式解析kml文件

思路:既然我们采用上面的这种方式会出现内存溢出的错误,那么我们可以一次不要将数据全部都解析出来,而是采用先解析一部分,继而循环解析的方式来解析kml文件。
有了思路之后我们就需要进行分析,具体要怎样才能实现。
分析:

  1. 使用simplexml_load_file()函数来引入要解析的kml文件;
  2. 计算要从哪个点开始读取;
  3. 解析document和style以及folder标签;
  4. 解析folder标签中的数据,判断是这个folder是Area数据还是Line数据,而且这2部分所采用的标签的层级是不一样的,因此需要分开来解析;
  5. 判断是否要输出数据,如果不是,则计算数据的总量;
  6. 循环总的点集数组,获得要输出的点集数组。
  7. 循环输出的点集数组,解析数据;
  8. 解析时,将对应的点集的样式也解析出来;
  9. 解析时,更需要判断要解析的数据是area数据还是line数据,对于不同的数据,采用不同方式进行分割,并将点集保存起来。
  10. 解析完毕之后,需要计算以哪种方式进行输出,这是因为这2个folder标签中的数据不是一样多;
  11. 输出数据。
    代码如下:
    /**
     * 按照区域来解析kml文件
     * @param $file
     * @param int $page
     * @param int $size
     * @param bool $outData
     * @return array
     */
    public function parseKMLByArea($file, $page = 0, $size = 2, $outData = true)
    {
        $xml = simplexml_load_file($file);
        $result = array();
        // 计算起始位置
        if ($page < 0) {
            $page = 0;
        }
        $start = $page * $size;

        $values = $xml->Document;
        $floderArr = array();
        foreach ($values->Folder as $folder) {
            $floderArr[] = $folder;
        }

        // 读取样式标签
        $styleArrs = array();
        foreach ($values->Style as $style) {
            $jsonStyle = xmlToArray($style);
            $key = $jsonStyle["@attributes"]["id"];
            $styleArrs[$key] = $jsonStyle;
        }

        $placeMarksCache = array();
        foreach ($floderArr as $key => $value) {
            $name = (string)$value->name;
            if ($name == 'Area Features') {
                foreach ($value->Placemark as $placeMark) {
                    $placeMarksCache['area'][] = $placeMark;
                }
            } else {
                foreach ($value->Placemark as $placeMark) {
                    $placeMarksCache['lines'][] = $placeMark;
                }
            }
        }

        // 判断是否需要数据输出数据
        if($outData==true){
            foreach ($placeMarksCache as $k => $place){
                // 获取要输出的点集
                $placeMarkOutCache = array();
                for ($j = 0; $j < $size; $j++) {
                    // 判断是否超出数组的长度
                    if ($start+$j>=count($place)) {
                        break;
                    } else {
                        $placeMarkOutCache[] = $place[$start + $j];
                    }
                }
                // 将点集read出来
                foreach ($placeMarkOutCache as $placeMark) {
                    $styleCache = (string)$placeMark->styleUrl;
                    $styleCache = str_replace("#", "", $styleCache);
                    $styleCache = $styleArrs[$styleCache];
                    if (!$styleCache) {
                        $styleCache = "00000000";
                    }
                    // 获取点集合
                    $strCache = $placeMark->Polygon;
                    if ($strCache) {
                        $styleCache = "#" . $styleCache["PolyStyle"]["color"];
                        $strCache = (string)$strCache->outerBoundaryIs->LinearRing->coordinates;
                        $strCache = explode("\n              ", trim($strCache));
                    } else {
                        $styleCache = "#" . $styleCache["LineStyle"]["color"];
                        $strCache = (string)$placeMark->LineString->coordinates;
                        $strCache = explode("\n          ", trim($strCache));
                    }
                    // 分割点集 作为数组进行保存
                    foreach ($strCache as $sc) {
                        $args = explode(",", $sc);
                        //$coords[] = array($args[0], $args[1], $args[2]);
                        $coords[] = array($args[0]+0.0050, $args[1]-0.0030);
                    }
                    // 将color 和 points 作为对象保存到result中
                    $result[$k][] = array("color" => $styleCache, "points" => $coords);
                    // 将这个数组清空
                    $coords = array();
                }
            }
        }
        // 计算placeMark的总数
        $areaNum = sizeof($placeMarksCache['area']);
        $lineNum = sizeof($placeMarksCache['line']);
        $placeMarksCacheCount = $areaNum > $lineNum ? $areaNum : $lineNum;
        // 计算总页数
        $countCache=$placeMarksCacheCount/$size;
        // 存在余数进1
        $countCache=ceil($countCache);
        // 封装返回数据
        $resultData = array(
            "data"=>$result,
            "totalPage"=>$countCache,
            "size"=>$size,
            "currPage"=>$page
        );
        return $resultData;
    }

当然这是我个人的一种解析方法,肯定还有更好的解决办法,请不吝赐教。最后,需要配置一张解析完毕之后的图。

解析之后的图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容