基础概念:
①探索性数据分析
数据分析包括探索阶段和实证阶段。
探索性数据分析是在一组数据中寻求重要信息的过程,利用EDA(Exploratory Data Analysis)技术,分析人员形成借助于先验的理论或假设,直接探索隐藏在数据中的关系、模式和趋势等,获得对问题的理解和相关知识。
探索性数据分析首先分离出数据的模式和特点,再根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。探索性方法既要灵活适应数据结构。
探索性分析相关技术:数据可视化技术
单变量:直方图、Voronoi图、方差变异分析工具。
多变量:散点图、QQplot分布图、方差变异分析工具。
简而言之,探索性数据分析即先找出数据的特点再进行模型选择。
②非参数法
在通过样本推断总体(又称为统计推断)的问题中,如果总体分布的形式已知,则我们只需要对其中含有的若干未知参数做出估计或进行某种形式的假设检验,这类推断方法成为参数方法。
但在实际问题中,我们对总体分布的性质往往知之甚少,这时就需要使用不必依赖于总体分布形式的统计推断方法,此类推断方法通常称为非参数方法。
(数学渣看到这里已经快看不懂了。。。
基于非参数法的探索性空间数据分析法来确定人口中心
通过分析城市内部人口密度的局部空间自相关格局,来确定人口中心。
即通过测算局部莫兰指数,对每个栅格的人数值进行比较,描述该栅格周围显著的相似之栅格之间在空间上的集聚程度,通过保留莫兰指数显著的栅格簇来筛选可能成为中心的地理单元。
方法:利用ArcGIS测算局部莫兰指数,并对指数显著的栅格进行分类,将HH类栅格视为组成潜在的人口中心。
人口中心应该是一个连续的区域,HH型栅格由于其本身人口密度较高且由高密度栅格所包围形成了彼此相邻的连续区域,自然而然的可以形成人口中心。这类栅格构成人口中心还需要满足该中心范围较大且总人口数较高,故为了过滤出范围较小和人口较少的异常中心样本。
步骤:
①测算栅格局部莫兰指数,并分为四类(HH,HL,LL,LH),将HH视为组成潜在的人口中心。
②设置人口中心筛选准则,一个中心应至少包含三个栅格(约3平方千米),且总人口拥有10万以上的居民。剔除HH类中具有人口高密度的孤立栅格。