Lambert2004 空间回归模型

Lambert DM, Lowenberg-Deboer J, Bongiovanni R (2004) A comparison of four spatial regression models for yield monitor data: A case study from Argentina. Precis Agric 5:579–600. doi: 10.1007/s11119-004-6344-3

数据分析和具体地点的建议之间的差距被认为是广泛采用精密农业技术的主要制约因素之一。这种差异部分是由于可用于理解作物GIS层的分析技术落后于数据收集和存储技术的发展的事实。产量监测,传感器和其他空间密集的农艺数据通常是自相关的,并且邻近观测之间的这种依赖违反了经典统计分析的假设。因此,估计的可靠性可能受到损害。空间回归分析是更充分地利用空间密集数据中包含的信息的一种方式。空间回归技术还可以调整由空间自相关引起的偏差和无效率。本文的目的是比较四个空间回归方法,在可变率技术的经济分析中明确纳入空间相关性:(1)从空间计量经济学文献中采用的回归方法; (2)多项式趋势回归法; (3)经典最近邻分析;和(4)地统计方法。分析中使用的数据来自1999年阿根廷科尔多瓦省的可变速率氮试验。空间回归方法提供了比普通最小二乘法更强的对氮的玉米产量响应的空间异质性的统计学证据。空间计量经济学分析可以在相对较小的数据集上实施,这些数据集没有足够的观测值来估计地统计学所需的半变异函数。最近邻和多项式趋势分析可以使用GIS软件中可用的普通最小二乘法来实现。这项研究的主要结果是,从这个可变速率氮试验的边际分析得出的结论是相似的每个空间回归模型,虽然每个模型中的空间过程的假设是完全不同的。


介绍
精确农业(PA)已经捕获了生产者和农业企业的想象力,但采用相对较慢。对于2001年的收获,约34%的美国玉米地区是用装备有产量监测器的联合收割机收获的(Daberkow等人,2002),但是这些组合物中只有约三分之一配备有GPS接收器,制作收益率图。在2000年,大约11%的玉米,6%的大豆和4%的棉花地区使用可变施肥量施肥。根据作物,可变播种和农药施用量占地区面积的1%-3%。 Bullock等人(2002)确定了缺乏特定作物的作物反应信息,作为采用空间作物管理实践的限制因素。大多数可变速率输入应用程序仍然基于全场(WF)作物响应信息。 Bullock等人认为如果生产者可以更容易地收集和分析特定土壤,微气候和管理区的作物反应,则PA可能更有利可图,使用该技术改善环境绩效和食品安全的社会目标可以更多轻松实现。

文献中报道的大部分作物反应信息已经用普通最小二乘法(OLS)和类似的统计工具分析。但基于OLS估计的产量响应函数的可靠性可以通过空间自相关数据进行比较(Kessler et al。,1998)。用于农艺和农场实验的古典统计假设观察是独立的。但是,在PA数据的情况下,这种独立性的假设是站不住脚的。例如,任何产量监测观测与其相邻观测值明显相关。因此,田间异质性可能是不成比例的,推断作物对变化肥率的反应可能会产生误导。

农场试验研究表明,比较可变速率氮(VRN)与常规均匀施肥率的实验分析(Bongiovanni和Lowenberg-DeBoer,2002; Hurley et al。,2004.,Lambert et al。 ,2002)可能导致不准确的结论,即哪种输入管理策略最适合具有不同的,可识别的管理区的领域。在这些研究中,当考虑空间自相关时,开发了可变速率技术(VRT)获利性的更可靠的估计。开发方法以确定精确农业是否有利可行是一个关键步骤是开发一致和可靠的估计程序,考虑到PA数据的空间自相关性质。从经济角度看,更好的估计转化为更准确的评估特定于站点的管理盈利能力。空间依赖是一种特殊情况,其中每个位置的因变量或误差项与其他位置的因变量或误差项的观测值相关(Anselin,1992)。在多种背景下(例如,地理学,农学,区域经济学和地质学)已经开发了模型空间相关性的回归方法。本文的主要目的是比较对VRN的收益率,其中利率是基于使用不同空间回归技术估计的对氮的现场特定玉米产量响应。使用四个空间回归模型和普通最小二乘法(OLS)估计玉米产量反应异质性。

比较的空间回归技术是:(i)限制最大似然(REML)地统计方法(Cressie,1993; Schabenberger和Pierce,2002); (ii)使用多边形作为离散观察单位(或空间自回归,SAR)的空间回归方法(Anselin,1988); (iii)多项式趋势(PTR)方法(Tamura等人,1988);和(iv)由Papadakis(1937)首先建议的经典最近邻(NN)方法。每种方法不同地建模空间自相关。空间数据的估计技术之间的差异围绕着假设观测之间的关系是否被最好地描述为离散或连续关系(关于这种区别的细节,见Anselin,1988)。 SAR和NN方法假定空间相关性是特定点或多边形之间的离散关系。地质统计和PTR方法反映了它们在方法中的起源,用于映射和插值,假定空间结构在空间上是连续的。

在1999 - 2000年作物季节数据分析中提出的经验结果和部分预算是使用替代空间回归方法时响应估计值有所不同的一个例子。然而,本案例研究的主要焦点是比较不同模型的空间相关性的替代回归方法,以及导出特定位点结果的方法。方法结果旨在作为将各种方法应用于相同数据时所发生的情况的示例。结果是确定方法之间的关键差异的一个步骤。


理论

  • 近邻法和空间回归法(NN)
    农业中的经典实验设计是随机完全区块(RCB)。 RCB设计本质上是控制实验误差的策略。由Fisher在20世纪20年代开发,RCB被誉为农业试验中非均匀实验单位的校正,特别是关于展示不同土壤类型或排水特性的异质景观。 Papadakis(1937)通过引入最近邻法(NN)来回应费舍尔的阻塞方法。在该方法中,从处理块中的处理j中的子块i的单个子块(y ij)的实验结果从母块的总体处理平均值(y ij)中减去。子块和整个块值之间的差是yij的实验误差。在经典NN分析中,邻居被垂直地布置:每个观察具有四个邻居。因此,y ij的误差是其四个相邻的共享相同边界的误差项的平均值。
    Stroup等人(1994)也将NN方法与标准阻断方法进行比较。使用网格实验设计,Vollmann et al。 (2000)使用经典的NN方法来识别大豆实验区之间的空间模式。他们发现大豆产量,种子蛋白质数量和种子大小受地块之间的空间异质性的影响。 Helms等人使用的迭代NN方法(1999)比较块处理和混合误差手段比较大豆品种的性能。使用方差分析(ANOVA),他们发现在减少由块内空间异质性引起的误差方面,经典阻塞和NN技术之间没有什么差别。 NN和经典实验设计之间的绘图方差估计的精度(纯误差)是相似的。 Brownie et al。 (1993)描述了NN模型:

其中Y是产量,l是总平均产量,sij是处理效果,zij是垂直于yij的最近邻残差的集合,h是产量yij和其zij近邻的残差之间的协方差的斜率系数。残差误差表示为rij = yij? ^ Yk,其中^ Yk是处理k的总平均值。 yij的NN残差的平均值被确定为zij = jri;j≥1+ ji1 + j1j + j + 1; j = 4。 NN模型的结构如(1)中所示,是通常用于测试农场试验的治疗差异的熟悉的ANOVA模型的结构。方程(1)可以通过将zij插入到解释变量的nxk矩阵中而被推广到熟悉的回归模型中。这种重新说明是重要的,因为本研究的主要兴趣是估计位点特异性产量反应氮(N)。 NN模型变为y = Xb + hz + e,其中协方差参数h是残差的邻域的平均参数。等式(1)用OLS估计。

  • 多项式趋势回归和空间回归(PTR)
    Tamura et al。 (1988)提出了另一种替代方法,通过在熟悉的ANOVA模型中插入多项式趋势变量(Tij)来模拟空间依赖性。这种方法与城市和区域地理学中引起注意的空间扩展回归方法有些相关(Anselin,1988)。趋势面被引入到模型中以捕获观察之间的空间关系。这种方法假定省略空间依赖性与经济计量文献中省略的变量问题类似。通过在ANOVA模型中包括趋势变量来处理省略的变量问题。像Papadakis提出的NN方法一样,Tamura等人的PTR模型被开发以解决未通过常规阻塞技术处理的空间结构化误差过程。利用回归模型对多项式响应面的同时估计将由空间相关性引起的系统误差分量与eij的非系统部分分离开(Kirk等人,1980)。参数估计只针对剩余的随机分量eij。实际上,假设由多项式表达式指定的趋势面具有正确的规格,则将观察i与j相关的坐标系添加到以多项式表示的熟悉的回归模型y = Xb + e中消除了省略的变量问题。所讨论的省略的变量将是解释误差残差中的空间结构的变量。 PTR模型指定为
    其中Y为产量,l为总均值,sk为处理效应,T为多项式趋势,e为独立同分布(i.i.d)随机误差分量。二次趋势项估计为
    其中ui是观测值yij的笛卡尔(x,y)坐标的斜率系数。 (x,y)坐标表示为行/列对。与NN方法类似,PTR方法被开发用于控制空间依赖性的治疗效果的ANOVA。在本研究中,目的是确定在空间变化的地形上玉米对氮的边际响应的差异。为了实现这个目标,PTR模型重写为,然后用熟悉的回归估计
    方程y = xb + e,包括(x,y)坐标,它们的平方和它们在X中的相互作用。使用OLS估计模型。

  • 空间回归地质统计方法(REML)
    许多农学家使用地球统计工具来模拟作物和土壤空间关系。也许这是因为土壤科学与地质学之间的学科联系。最初,地统计学被开发用于通过观测之间的插值产生地图。为了便于绘制,地统计学假定空间变异性是由半变异函数模型化的距离的连续函数。在地统计框架中,在给定点的变量(例如,作物GIS中的层)之间的关系的推理测试已经发展相对最近。 Cressie(1993)介绍了REML地质统计方法。 Little et al。 (1996)和Schabenberger和Pierce(2002)阐述了这种方法,这需要估计经验半变异函数,然后在回归模型中使用半变异函数参数估计作为先验,以表征观察之间的空间相关性。 Cressie(1993)和Schabenberger和Pierce(2002)概述的REML地质统计方法已用于分析小麦杂交试验(Stroup等,1994),北卡罗来纳州婴儿猝死综合征(SIDS)的模式分析(Cressie, 1993)和土壤中的重金属(Schabenberger和Pierce,2002)。 Lambert et al。 (2002)使用REML地质统计方法来分析产量监测数据。 Hurley et al。 (2004)采用了类似的方法结合地质统计学和回归技术来分析美国明尼苏达州的VRN玉米试验。他们估计土壤测试,地形图和玉米遥感信息的利润率,使用半变异函数进行模型空间误差过程。 Lark和Wheeler(2003)使用该模型的变体来估计欧洲的大麦产量响应。半变异函数是REML-地质统计回归模型的主干。
    半变异函数参数(范围,nugget和sill)被估计,然后用作先验模型回归协方差矩阵。回归模型与熟悉的模型y = Xb + e估计,但空间协方差(R)通过R = Var(e)建模,其中Var(e)
    2 + rs2F,F是N·N矩阵,其第i,j个元素由距离衰减函数表征,并且rn2和rs2是核函数和半变异函数估计,I是单位矩阵(Little等人, 1996)。 REML参数估计是针对空间自相关调整的估计广义最小二乘(EGLS)估计。如果空间相关性存在于OLS残差中,则基于OLS和REML模型的对数似然性的-2倍的差异的似然比(LR)测试(v2(2)变量)的零假设被拒绝et al。,1996)。在本研究中,OLS残差的鲁棒半变异函数(Cressie,1993)使用SAS中的VARIOGRAM程序(2000)进行估计。在Cressie(1993)之后,使用加权非线性最小二乘法(WNLS)来估计OLS残差的半变异函数。使用SAS(2000)中的MIXED过程估计REML回归。

  • 离散空间回归法(SAR)
    离散空间回归方法假定空间依赖是离散观察或多边形之间的关系。空间结构可以在因变量(例如,产量)或回归残差中找到。空间结构被建模,假设因变量或残差是相邻观测值的加权平均值的函数。这种方法已广泛用于流行病学,地理学和区域经济学。在农业中,数据的结构是类似的,但多边形通常是土壤类型或管理区域,而不是州,县,地区或社区。这种方法使用多边形数据,实现空间结构的同时最大似然估计和GIS层之间的关系。构造空间权重矩阵以识别数据集中的邻居。矩阵被设计为将诸如重力,熵或衰变的过程并入回归模型中(Anselin,1988)。以规则矩形网格排列的数据使用三个标准来定义:“bishop”,“rook”或“queen”。这些类描述了多边形之间的邻接级别或共同边界。根据Bongiovanni和Lowenberg-DeBoer(2000),本研究中的SAR回归使用“皇后”标准:单个网格单元具有与一个或多个其他单元共同的边界和角。在空间术语中,邻接性被定义为将一个细胞与另一个细胞分开的距离的函数。属于同一邻域的块共享相同的权重,覆盖整个网格的邻域的复合定义空间权重矩阵。该矩阵(W)是N·N,具有元素wij的正定矩阵,以及沿着对角线的零。在使用空间权重矩阵来估计回归模型中的空间效应之前,它们是行标准化的。这有助于比较邻域的空间特性。行中的每个元素都由行和除。 Anselin(1988)确定了两个一般模式,空间依赖可能表现在回归分析:空间滞后和空间误差。如果忽略空间误差过程,OLS估计是低效的,但仍然是无偏的。如果忽略空间滞后过程,那么OLS估计是不一致和有偏差的。当与相关联的空间矩阵相关地估计回归模型时,确定这些效应的存在。确定空间自相关的存在的第一步骤需要估计与相关联的空间矩阵组合的标准OLS模型y = Xb + e。通过将空间权重矩阵W结合到回归模型中,为滞后(误差)分类确定因变量yi(ei)与相邻yj(ej)之间的关系。对于滞后过程,模型回归模型变为y = qWy + Xb + e;其中q为相邻yj的自回归移动平均参数。空间误差模型被指定为y = xb + e,其中e = kWe + u,其中u表示良好行为,非异方差,不相关的误差。 bi是对空间自相关校正的EGLS估计。拉格朗日乘数测试(LM,作为v2(1)变量分布)可以用于检测OLS残差中空间相关性的存在。 LMerror测试的替代方案是残差遵循空间模式,而LMlag测试的替代方案是解释性和/或因变量的个体观察与给定邻域中相同变量的其他值的平均值相关的观察。拒绝LMlag测试的null意味着我们面临一个省略的变量问题; OLS估计是有偏差和不一致的。如果我们拒绝LMerror测试的null,我们面临一个效率问题; OLS估计没有偏差,但它们是低效的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容