Box-Cox转换

Box-Cox变换后的数据,可以使回归模型满足线性、误差独立性、误差方差齐性和误差正态性,同时又不丢失信息。

对存在非线性关系的数据,可以使用复杂模型拟合非线性函数来处理非线性问题,但这样的运算更复杂。先采用相对简单的数据转换来尝试将数据关系变为近似线性关系的情况,是更明智的。

一般的数据转换方法:

  • 对数转换:y_i=\ln(x_i)
  • 平方根转换:y_i=\sqrt{x_i}
  • 立方根转换:y_i=\sqrt[3]{x_i}
  • 平方根后取倒数:y_i=\frac1{\sqrt{x_i}}
  • 倒数转换:y_i=\frac{1}{x_i}

上述各方法,对x_i的转换幅度依次增大。

Box-Cox转换形式为:
Y^{(\lambda)}=\begin{equation}\left\{ \begin{array}{lr} \frac{Y^{\lambda}-1}{\lambda}, & \lambda \neq 0 \\ \ln{Y}, & \lambda = 0 \end{array} \right.\end{equation}
可变参数\lambda决定具体的变换形式,\lambda=0时,变换为对数变化。对于任意取值的y_i,可改为y_i+c_i>0,保证对数的运算。

在应用中,需要估计的参数是\lambda。为使转换后的数据服从线性,即希望Y^{(\lambda)}=\beta X +\varepsilon,\varepsilon \sim N(0,\sigma^2I),则对固定\lambda\beta\sigma^2的似然为

L(\beta,\sigma^2)=\frac{1}{(\sqrt{2\pi}\sigma)^n}\exp{-\frac1{2\sigma^2(Y^{(\lambda)}-X \beta)^{'}(Y^{(\lambda)}-X \beta)}}J
J=\prod_{i=1}^n|\frac{\dd y_i^{\lambda}}{\dd y_i}|

最大化似然,求得参数\lambda的最优值。

Box-Cox转换通过变换参数\lambda来改变变换的具体形式。整个过程完全基于数据本身,从而比直接选定对数、平方根等方法要客观准确。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 笔记说明 在datacamp网站上学习“Time Series with R ”track“Forecasting...
    新云旧雨阅读 10,316评论 1 2
  • 1、数据分桶(分桶后需要编码) 连续值经常离散化或者分离成“箱子”进行分析, 为什么要做数据分桶呢? 离散后稀疏向...
    堂堂正正的大号阅读 4,436评论 0 5
  • Author: 杜七 一、前言 数据挖掘过程中,不同变量数据单位不一,比如,我们想知道一个人身体健康状况,其身高是...
    杜七阅读 31,109评论 0 12
  • 置信区间 是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence i...
    Andrew_jidw阅读 10,217评论 0 0
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 11,277评论 0 4