在数据分析中如果某个数据服从正态分布的话,我们可以利用正态分布的性质做出很多有意义的分析,例如t-检验。。
如何检验样本是否服从正态分布?
可以使用Q-Q图来进行检验,Q-Q图是一个散点图,点(x, y)表示数据x的某个分位数,y表示和x的分位数相同的分位数(即 $ F_X (x)=F_Y(y) $ ),如果说两个分布的QQ图在一条直线上,则说明每个$[x_i, x_{i+1}],[y_i, y_{i+1}]$区间所包含的数据在整个数据集中的比例相同,也就是说明如果对x或y进行放缩的话可以让它们。
所以,如果把未知数据和标准正态分布做Q-Q图的话,如果所有点在一条直线上则说明未知数据的分布服从正态分布。
如果不是正态分布怎么办?
数据右偏的话可以对所有数据取对数、取平方根等,它的原理是因为这样的变换的导数是逐渐减小的,也就是说它的增速逐渐减缓,所以就可以把大的数据向左移,使数据接近正态分布。
如果左偏的话可以取相反数转化为右偏的情况。