位置数据的获取及辨伪

今天，手机对我们的生活来说已经是不可或缺的一部分了。从天气预报，地图导航，滴滴打车，摩拜单车，我们时时刻刻用手机来探索真实世界。作为目标受众，我们所获取的基于位置的服务，包括移动广告的推送，都来源于手机主动或被动发出的位置信息。所以说，这些位置数据对于消费者和广告商来说都是极端重要的。那么，位置数据如何获取？获取到的位置数据的真伪和精准是否能保障？这就是本文我们要重点讨论的问题。

位置数据如何来获取？

位置数据的获取主要通过两种途径：主动和被动。

主动途径：

主动途径是指在用户许可前提下，移动应用通过系统位置API获取位置信息，发送给服务器从而获得相应的基于位置的服务。系统位置API采用了混合定位的方式，综合了GPS，WiFi和基站信息，甚至iOS 7和8使用了低功耗蓝牙（Bluetooth LE）信息，所以总体来说，主动途径的位置信息是相对比较精准的。混合定位的具体的步骤如下：

系统首先获取周边的基站信息，因为这是最快最省电的模式，但是位置也是最不精准的。
系统其次将获取周边的WiFi信息，并参考曾经缓存在系统里的WiFi信息，得出的位置相比较基站定位会精准一些。
系统将启动GPS，相对最精准的方法，当然也是最需要时间和最耗电的。

这三种方法并不是顺序执行的，而通常是并行执行的，这就是为什么我们在地图上定位自己的时候，刚开始看到的位置是变化的，错误半径的显示也是由大到小，越来越精准的原因了。

被动途径：

被动途径指的是用户未授权位置许可，获取用户位置数据的途径和方法。主要获取途径如下：

访问服务时的手机IP地址所能够映射出的区域位置
注册信息所包含的地理位置属性，比如手机号归属地
社交内容所包含的地理位置属性，比如分享的文字或照片的位置
第三方应用提供的位置数据，比如第三方应用含有位置的日志文件
WiFi探针所捕获到的手机信息，比如能获取到的手机MAC和IMEI地址

被动途径获取的位置数据，是非常不精准的，但作为丰富用户画像的目的，也是一种不可或缺的技术手段。

无论是主动还是被动途径采集来的位置数据，都有可能是伪造的或者非常不精准的，这会对未来的数据分析工作带来很大的干扰。所以，我们必须要对收集来的数据做辨伪和清洗工作。

位置数据如何来辨伪？

地理区域中心

如果大量的位置数据来自某个相对比较固定的经纬度，我们要小心了。例如，IP地址定位基本只会定位到行政区域，由此而产生的经纬度，基本上是该区域中心的经纬度值，如果该位置人迹罕至，那很可能是由此原因而带来的干扰数据，我们需要有效的过滤它们。

孤立基站

手机初始基站定位基本上采用的是基站三角定位方法，但如果附近只收集到一个基站信息，即便是方圆几公里范围的手机，也都将直接定位到该基站位置，所以如果有反常的大量位置数据都聚焦到一个位置，也很可能是由于孤立基站的存在而造成的。

位置造假的短跳及精度伪造

关于位置数据造假的问题，时间和位置两方面信息都需要考虑。如果有设备在短时间内，从北京跳到了上海，那很可能是位置数据的短跳造假。有时位置的经纬度由于精度不够而不能被接受，开发者会有意识的添加固定或者随机数字来增加精度，所以显示在地图上，要么是固定有规律的模式，要么是随机混乱的模式，这类就是精度造假。

综上所述，辨识及过滤非法的位置数据，核心原则就是发现那些违反人类行为模式的位置数据。例如，真实世界中一个人的行为轨迹数据，往往聚集在一些点上，比如家，工作的地方，常去的商店等，如果一些轨迹数据不具备这些模式，那需要仔细再看一看了。

总结

随着移动互联网及物联网的高速发展，大数据无论从广度还是深度上都深刻的影响着人类社会的变革和演进，而空间位置信息作为大数据的一个关键维度，将会被提升到一个重要的高度。所以不仅要有能力从各个渠道获取位置大数据，同时还要具备过滤位置数据噪音的技术能力，从而最终获取正确的空间位置上下文，确保商业模式的准确有效。