在我们做数据的时候,一个数据会有很多特征;比如在描述影响房价的因素,有房子面积,房间数量等。而不同的特征存在不同的量纲,为了消除量纲、数值差异等,我们就需要对数据进行中心化和标准化;
那什么是中心化,什么是标准化呢?
所谓中心化就是将数据减去均值后得到的,比如有一组数据(1,2,3,4,5,6,7),它的均值是4,中心化后的数据为(-3,-2,-1,0,1,2,3)
而标准化则是在中心化后的数据基础上再除以数据的标准差
在R语言中可以通过scale函数直接进行数据的中心化和标准化,具体如下:
Scale(x,center,scale)
参数解释:x—即需要标准化的数据
center—表示是否进行中心化
scale—表示是否进行标准化