基本气候状态的统计量
在气候诊断与预测中,需要用统计类表征基本气候状态的特征,主要有四种基本统计量:气候变量中心趋势、变化幅度、分布形态、相关程度。
一、中心趋势统计量:
1、均值:由中心极限定理可以证明,在原始数据不属于正态分布时,均值总是趋于正态分布的。均值是μ的最好的估计量。【在计算机上利用递推算法进行计算,优点是可以进行实时资料处理,得到一系列中间均值,既满足需要又避免增加一个样本从头做平均的重复计算】。
2、中位数:优点不容易受异常值的干扰。
缺点:仅仅是气候变量分布中心在数值上的大小,只是告诉我们平均水平,但是并没有告诉我们,这种变化与正常情况的偏差和变化的波动。
二、变化幅度统计量(表征距离分布中心远近程度的统计量)
1、距平:表示气候变量偏离正常情况的量。任何气候变量序列,经过距平化处理都可以化为平均值为0的序列。
2、方差与标准差:描述样本中数据与以均值为中心的平均振动幅度的特征量。
三、分布特征统计量
1、偏度系数:表征分布形态与平均值偏离的程度,作为不对称的测评。g1:取值是由符号而定,当其为正,表明图形的顶峰偏左,称正偏度;否则为负偏度;取值为0,表示分布图形对称。
2、峰度系数:表征分布形态图形顶峰的凸平值。当g2为正时,表明分布图形坡度偏抖;为负表明图形坡度平缓,为0表明分布图形对称。
若g1=0,g2=0,表明研究变量是理想的正态分布变量。所以对g1,g2进行统计检验,以判断变量是否近似正态分布。
四、相关统计量
1、Pearson相关系数:是描述两个随机变量线性相关的统计量,一般简称相关系数或点相关系数,用r表示。取值-1—1,大于0正相关,小于0负相关,等于0相互独立。
如果是非线性的关系,不能随便套用Pearson相关系数计算。对于不是确定数值的数据,可以计算非参数相关(Spearman秩相关系数或Kendall秩相关系数)来考察变量之间的相依关系。
统计学中大样本定理要求样本量大于30才有统计意义;但是样本量较小的时候,可以用无偏相关系数加以校正。
2、自相关系数:描述某一变量不同时刻之前的相关的统计量。不同滞后长度的自相关系数可以帮助我们了解前J时刻的信息与其后时刻变化间的联系。
3、关联度:表征气候变量关系密切程度的相关系数,要求有足够大的样本量及数据遵从一定的概率分布。
灰色关联度:实质是进行曲线间几何形态的比较。
关联度:适合表征小样本变量间的关联程度,序列间关联程度大小的综合指标。
关联系数:表征各个序列在不同时刻的关联程度。
优序度:一种更适合气候变量的关联度计算方案。