本内容为【科研私家菜】R语言机器学习与临床预测模型系列课程
你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】
01 基础绘图包 plot
线性回归是机器学习基础技术,简单但又特别有效。
爱因斯坦曾经说过,事情应该尽可能简单,直到不能再简单为止。
这真是至理名言,也是我们开发机器学习算法时应该遵循的经验法则。线性回归使用最小二乘法预测定量的结果,实际上,线性回归是我们机器学习所有方法的基础,很多方法仅是线性回归的扩展。
对定量型响应变量的预测,令这个响应变量为Y,还有一个预测变量x,假设Y与x具有线性关系,那么这个预测模型可以表示为Y = B0 + B1x + e。我们规定,Y的预测值
是一个函数,等于B0(截距)加上B1(斜率)乘以x再加上一个误差项e。
最小二乘法选择模型参数,使预测值y和实际值Y的残差平方和(RSS)最小。
01 基础绘图包 plot
#call up and explore the data
data(anscombe)
attach(anscombe)
anscombe
cor(x1, y1) #correlation of x1 and y1
cor(x2, y1) #correlation of x2 and y2
par(mfrow = c(2,2)) #create a 2x2 grid for plotting
plot(x1, y1, main = "Plot 1")
plot(x2, y2, main = "Plot 2")
plot(x3, y3, main = "Plot 3")
plot(x4, y4, main = "Plot 4")
library(alr3)
data(snake)
dim(snake)
head(snake)
names(snake) = c("content", "yield")
attach(snake) #reattach data with new names
head(snake)
#produce a scatterplot
plot(content, yield, xlab = "water content of snow", ylab = "water yield",
main="Scatterplot of Snow vs. Yield")
#build a linear model
yield.fit <- lm(yield ~ content)
summary(yield.fit)
plot(content, yield)
abline(yield.fit, lwd=3, col = "black")
par(mfrow = c(2,2))
plot(yield.fit)
qqPlot(yield.fit)
R使用lm()函数进行线性回归,lm()可以建立一个标准形式的回归模型fit = lm(Y~X)。建立模型之后,你可以对拟合模型使用各种函数,以检验自己的假设。
通过summary()函数,我们可以查看模型包含的一些项目,比如模型具体参数、关于残差的描述性统计量、系数、模型显著性代码、模型误差和拟合程度的摘要。现在,让我们重点关注对于相关系数这个参数的估计,看一下我们的预测变量是否具有显著的p值,以及整个模型的F检验是否具有显著的p值。
效果如下:
02 ggplot2
效果如下:
关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型