数据标准化的方法:“最小—最大标准化”、“Z-score标准化”
1.最小—最大标准化
原理:将某一问项的原始值x通过标准化映射成在区间[0,1]中的值 ,其公式为:新数据=(原数据-极小值)/(极大值-极小值),也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间
公式:标准化结果x'=(x-min)/(max-min), 其中x表示原始数据,min表示该指标的最小值,max表示该指标的最大值
spss操作:第一步—选定该指标包含的数据,点击“分析”-“描述”—得到描述性统计结果,并可知道该指标的最小、最大、平均和标准差值 ,如下图 ;第二部,点击“转换”—“计算”——输入标准化后变量的名称,输入 最小—最大标准化的公式,如下图——点击确定——新的标准化结果出现在spss面板的指标右方
2.“Z-score标准化”
原理:通过原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其标准化后的数值大小有正有负,如下图中的标准正态分布曲线
适用范围:问项数据的最大最小值不知道的情况下、有超出取值范围的离群数据的情况、适用于不同量级数据的无量化处理
公式:新数据=(原数据-均值)/标准差
spss操作:点击“分析”-“描述”—勾选z-score标准化处理,即可得结果
【补充说明】
数据标准化(归一化)处理:
【专业解释】不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。
【通俗的解释】经过标准化处理,原始数据均转换为无量纲化,数据无量纲化处理主要解决数据的可比性,即不同量级的数据通过标准化变为同一量级的数据,如用户的搜索次数的量级为万级的,而下载次数为百级,通俗地讲,同一天内用户对一首歌的搜索次数有几万次,而下载次数只有几十次,将这两个指标的数据标准化后,就变为同一个级别的数,比如均为【0,1】,就可以通过这两个指标来讨论和计算用户对一首歌的喜欢程度,指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。