R语言机器学习与临床预测模型75--统计模型与机器学习

R小盐准备介绍R语言机器学习与预测模型的学习笔记

你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】


01 偏差和方差

高偏差模型的一个例子是逻辑回归或线性回归,其中模型的偏移量仅为一条直线,由于线性模型无法很好地逼近底层数据,因此可能具有高误差分量。高方差模型的一个示例是决策树,在该模型中,模型可能会创建太多的摆动曲线作为拟合,其中,即使对内部数据进行微小更改,也会导致曲线拟合发生剧烈变化。目前,最先进的模型正在利用高方差模型,如决策树,并在其上执行集成,以减少高方差引起的误差,同时不影响因偏差分量导致的误差增加。这一类别的最佳示例是随机森林,其中许多决策树将独立生长并集成以获得最佳拟合;
在统计建模中,通常将数据随机分成70-30或80-20个训练和测试数据集,其中用于构建模型的训练数据及其有效性将在测试数据上进行检查。


数据拆分:
在下面的代码中,70%的数据应该被分割到训练数据集中,剩下的30%应该在测试数据集中。随机状态是生成伪随机数过程中的种子,通过在每次运行时分割完全相同的观察值,使结果可重复

full_data = read.csv("mtcars.csv",header=TRUE) 
set.seed(123) 
numrow = nrow(full_data) 
trnind = sample(1:numrow,size = as.integer(0.7*numrow)) 
train_data = full_data[trnind,] 
test_data = full_data[-trnind,]

02 统计建模和机器学习

统计建模和机器学习之间有相似之处,在统计建模中,具有两个自变量的线性回归正试图用最小值拟合最佳平面,然而,在机器学习中,自变量已转换为误差项的平方(平方确保函数将变得凸,从而提高收敛速度,并确保全局最优),并基于系数值而不是独立变量进行优化。
在进入梯度下降之前,引入凸函数和非凸函数非常有用。凸函数是指在函数上任意两个随机点之间绘制的直线也位于函数中的函数,而非凸函数并非如此。重要的是要知道函数是凸的还是非凸的,因为在凸函数中,局部最优也是全局最优,而对于非凸函数,局部最优不能保证全局最优。



03 线性回归与梯度下降

# Linear Regression 
train_data = read.csv("mtcars.csv",header=TRUE) 
model <- lm(mpg ~ hp, data = train_data) 
print (coef(model)) 
# Gradient descent 
gradDesc <- function(x, y, learn_rate, conv_threshold, batch_size, max_iter) {   m <- runif(1, 0, 1)   c <- runif(1, 0, 1)   
ypred <- m * x + c   
MSE <- sum((y - ypred) ^ 2) / batch_size
converged = F   iterations = 0   
while(converged == F) {     m_new <- m - learn_rate * ((1 / batch_size) * (sum((ypred - y) * x)))     
c_new <- c - learn_rate * ((1 / batch_size) * (sum(ypred - y)))   
  m <- m_new     
c <- c_new  ypred <- m * x + c    
MSE_new <- sum((y - ypred) ^ 2) / batch_size    
if(MSE - MSE_new <= conv_threshold) {      converged = T      return(paste("Iterations:",iterations,"Optimal intercept:", c, "Optimal slope:", m))    }    
iterations = iterations + 1    
if(iterations > max_iter) {      converged = T      return(paste("Iterations:",iterations,"Optimal intercept:", c, "Optimal slope:", m))    }    MSE = MSE_new  }}
gradDesc(x = train_data$hp,y =  train_data$mpg, learn_rate = 0.00003, conv_threshold = 1e-8, batch_size = 32, max_iter = 1500000)

04 损失函数

机器学习中的损失函数或成本函数是将变量值映射到实数的函数,直观地表示与变量值相关的一些成本。优化方法通过改变参数值来最小化损失函数,这是机器学习的中心主题。




什么时候停止调整机器学习模型中的超参数至关重要。这个问题主要可以通过保持塔布森训练和测试误差来解决。在增加模型复杂性的同时,会出现以下阶段:

  • 第1阶段:欠拟合阶段-高训练和高测试误差(或低训练和低测试精度)
  • 第2阶段:良好拟合阶段(理想场景)-低训练和低测试误差(或高训练和高测试精度)
  • 第3阶段:过度拟合阶段-低训练和高测试误差(或高训练和低测试精度)



关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 R语言机器学习与临床预测模型

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容