机器学习之线性回归(1) — 单变量回归

预测怀俄明州蛇河流域的水量,数据集snake可以加载alr3包得到。

install.packages("alr3")
library(alr3)
data("snake")
str(snake)
'data.frame': 17 obs. of 2 variables:
X: num 23.1 32.8 31.8 32 30.4 24 39.5 24.2 52.5 37.9 ... Y: num 10.5 16.7 18.2 17 16.3 10.5 23.1 12.4 24.9 22.8 ...
head(snake)
X Y
1 23.1 10.5
2 32.8 16.7
3 31.8 18.2
4 32.0 17.0
5 30.4 16.3
6 24.0 10.5

更改变量名

names(snake) <- c("content","yield")
str(snake)
'data.frame': 17 obs. of 2 variables:
content: num 23.1 32.8 31.8 32 30.4 24 39.5 24.2 52.5 37.9 ... yield : num 10.5 16.7 18.2 17 16.3 10.5 23.1 12.4 24.9 22.8 ...
with(snake,plot(content,yield,xlab = "water content of snow",ylab = "water yield",las = 1))

snake01.png

散点图显示content和yield之间存在线性关系,但首尾疑似存在两个离群点。

建立线性回归

yield.fit <- lm(yield~content,data = snake)
summary(yield.fit)
Call:
lm(formula = yield ~ content)
Residuals:
Min 1Q Median 3Q Max
-2.179 -1.515 -0.362 1.628 3.197
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7254 1.5488 0.47 0.65
content 0.4981 0.0495 10.06 4.6e-08 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.74 on 15 degrees of freedom
Multiple R-squared: 0.871, Adjusted R-squared: 0.862
F-statistic: 101 on 1 and 15 DF, p-value: 4.63e-08

P值高度显著,可以拒绝原假设。
回到刚刚的散点图,为散点图添加线性回归模型产生的拟合直线。

with(snake,plot(content,yield))
abline(yield.fit,lwd=3,col="red")

snake02.png

线性回归必须通过统计假设检验。
正态性:对于固定的自变量值,因变量值呈正态分布。
独立性:Y值之间相互独立。
线性:因变量和自变量之间为线性相关。
同方差性:因变量的方差不随自变量的水平不同而变化。

对模型进行回归诊断

par(mfrow=c(2,2))
plot(yield.fit)

snake03.png

标准方法

正态性:右上角QQ图是在正态分布对应的值下,标准化残差的概率图,若满足正态假设,那么图上的点应该落在呈45度角的直线上。
独立性:从收集的数据来验证。
线性:左上角残差与拟合图中,残差值和拟合值不存在任何系统的关联。
同方差性:左下角位置尺度图中,水平线的点应该随机分布。

改进的方法

正态性:
(1)car包qqPlot()函数
library(car)
qqPlot(yield.fit,labels=row.names(snake),id.method="identify",simulate=TRUE,main="Q-Q Plot")

snake04.png

(2)学生化残差图

学生化残差图

residplot <- function(fit,nbreaks=10){

  • z <- rstudent(fit)
  • hist(z,breaks = nbreaks,freq = FALSE,
  •    xlab = "Studentized Residual",
    
  •    xlim = c(-3,3),
    
  •    main = "Distribution of Errors")
    
  • rug(jitter(z),col = "brown")
  • curve(dnorm(x,mean = mean(z)),add = TRUE,col = "blue",lwd = 2)
  • lines(density(z)x,density(z)y,col="red",lwd=2,lty=2)
  • legend("topright",
  •      legend = c("Normal Curve","Kernel Density Cruve"),
    
  •      lty = 1:2,col=c("blue","red"),cex=.7)
    
  • }

residplot(yield.fit)

snake05.png

误差的独立性

car包的Durbin-Watson检验。

durbinWatsonTest(yield.fit)
lag Autocorrelation D-W Statistic p-value
1 -0.4152 2.706 0.106
Alternative hypothesis: rho != 0

P值等于0.106不显著,说明无自相关性。

线性

car包的crPlots(),绘制成分残差图。

crPlots(yield.fit)


snake06.png

若图形存在非线性,则说明预测变量的函数形式建模不够充分,需要添加一些曲线成分,比如多项式和对数变换、指数变换等。

同方差性

(1)car包的ncvTest()函数

ncvTest(yield.fit)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.8439 Df = 1 p = 0.3583

原始假设为误差方差不变,p = 0.3583无法拒接原假设

(2)car包的spreadLevelPlot()函数

spreadLevelPlot(yield.fit)

Suggested power transformation: 0.6308

snake07.png

如果图中的点在水平的最佳拟合曲线周围呈水平随机分布,说明满足方差不变假设,否则建议幂次转换为0.5,用根号Y代替Y,若建议幂次为0,则使用对数变换。此例中应使用幂次转换。

yield.fit2 <- lm(sqrt(yield)~content,data = snake)
summary(yield.fit2)
Call:
lm(formula = sqrt(yield) ~ content, data = snake)
Residuals:
Min 1Q Median 3Q Max
-0.329 -0.150 -0.020 0.146 0.365
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.04727 0.19425 10.5 2.5e-08 ***
content 0.06233 0.00621 10.0 4.8e-08 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.219 on 15 degrees of freedom
Multiple R-squared: 0.87, Adjusted R-squared: 0.862
F-statistic: 101 on 1 and 15 DF, p-value: 4.77e-08

幂次变换后线性模型的拟合效果稍微提高了,当然也可能是由于离群点导致,暂不做分析。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容