用R线性回归
创建数据集
mouse.data <- data.frame(weight=c(0.9, 1.8, 2.4, 3.5, 3.9, 4.4, 5.1, 5.6, 6.3),size =c(1.4, 2.6, 1.0, 3.7, 5.5, 3.2, 3.0, 4.9, 6.3))
> mouse.data
weight size
1 0.9 1.4
2 1.8 2.6
3 2.4 1.0
4 3.5 3.7
5 3.9 5.5
6 4.4 3.2
7 5.1 3.0
8 5.6 4.9
9 6.3 6.3
plot(mouse.data$weight,mouse.data$size)
Rplot06.png
mouse.regression <- lm(size~weight, data=mouse.data)
> summary(mouse.regression)
#第一行只打印出对lm()函数的原始调用。
Call:
lm(formula = size ~ weight, data = mouse.data)
#这是残差的总结(从数据到拟合线的距离)。理想情况下,它们应该在线周围对称分布。
Residuals:
Min 1Q Median 3Q Max
-1.5482 -0.8037 0.1186 0.6186 1.8852
#这一节告诉我们关于拟合线的最小二乘估计。第一列截距和斜率,第二列标准误差,第三列t值,第四列是估计参数的p值。一般来说,我们通常对截距不感兴趣,所以p值是多少无关紧要。但是,我们希望“weight”的p值< 0.05。也就是说,我们希望它具有统计学意义。一个显著的weight的p值意味着它将给我们一个可靠的老鼠大小的预测。
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.5813 0.9647 0.603 0.5658
weight 0.7778 0.2334 3.332 0.0126 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#拟合曲线有7个自由度,残差的标准差为1.19
Residual standard error: 1.19 on 7 degrees of freedom
# R平方, 校正后的R平方
Multiple R-squared: 0.6133, Adjusted R-squared: 0.558
#F值,以及p值
F-statistic: 11.1 on 1 and 7 DF, p-value: 0.01256
#最后,添加拟合曲线
abline(mouse.regression, col="blue")
Rplot07.png