Linear Model

ML系列文章先引入数学理论和代码实现结合。

一、数学理论篇

引言:

数值型自变量和数值型新变量之间关系分析方法就是相关与回归分析。是处理变量之间关系的一种统计方法。两个变量之间就是简单相关与简单回归分析;两个及以上是多元相关与多元回归分析。 如果从变量关系形态上又分为线性相关与线性回归和非线性相关非线性回归。

描述

当然如何对相关关系描述与测度呢(是否有关系,有什么关系,关系强度,样本能否代表总体变量关系):

  • 1散点图
  • 2相关系数(correlation coefficient) 样本的记做r,总体的记做ρ
线性相关系数或者Pearson相关系数

注:r仅仅是线性关系的度量,可能存在非线性关系,r=0不能得出不存在相关关系,要结合散点图分析,也不一定意味着x与y一定有因果关系

显著性检验(t分布)

因为总体相关系数ρ未知,用样本相关系数r作为近似值会受到抽象波动影响所以要进行显著性检验:
显著性检验方法

回归模型

描述因变量y如何依赖自变量x和误差项ɛ的方程为回归方程(regression model)
y = β0 + β1x + ɛ (一元线性回归模型也称为理论回归模型)
注:误差项ɛ 是随机变量,E(ɛ )=0,对所有的x值,ɛ 的方差σ^2都相等,服从正态分布。 给定任何一个x,y都服从期望值为β0+β1*x,方差为σ^2的正态分布。

估计回归方程

方程:
对于x和y的n对观测值,用描述的直线就很多,这时就需要引入一个原则来判定哪条代表两个变量之间关系。 这个方法就是最小二乘法(method of least squares)

区分

  • 回归模型是对统计关系进行定量描述的一种数学模型.
  • 回归方程是对变量之间统计关系进行定量描述的一种数学表达式.指具有相关的随机变量和固定变量之间关系的方程.主要有回归直线方程.
  • 当几个变量有多重共线性时,多元回归分析得出的回归方程,靠手算精确值计算量太大,所以只能得出估计值

回归直线的拟合优度(goodness of fit)

  • 判定系数是对拟合优度的度量
    需要了解概念SST(总平方和), SSR(回归平方和),SSE(残差平方和), R^2 (判定系数)= SSR/SST R^2∈[0,1]
  • 估计标准误差
    了解的概念:估计标准误差(standard error of estimate),是均方残差(MSE)的平方和.MSE是度量实际观测值与回归观测值的差异程度。

回归分析的显著性检验 (F分布)

回归分析以及显著性检验
注:F检验是检验总体回归关系的显著性,而t检验则是各个回归系数的显著性

用回归方程预测

  • 置信区间估计:对x的一个给定值x0,求y的平均值的区间估计
  • 期望估计值标准差的估计量的计算公式:自己找一找
  • 预测区间估计:对x的一个给定值x0,求y的一个个别值的区间估计
  • 个别估计值的标准差的估计量的计算公式:自己找一找

残差分析

确定假定的 ɛ是否成立的方法之一是残差分析

  • 残差(residual):因变量的观测值与根据估计的回归方程求的预测值之间的差。反映了用估计的回归方程去预测yi而引起的误差。
  • 残差计算公式:略
  • 标准化残差(standardized residual):残差除以它的标准差的数值,也称为Pearson残差或者半学生化残差(semi-studentized residuals) 计算公式:略 ,它是残差的标准化估计,因为假定 误差项ɛ服从正态分布成立,那么标准化残差的分布也服从正态分布。

引申多元线性回归

前面说的是一元,可以引申为多远是一样的,只是多了几个变量,概念和它的意义和上面一样。因为自变量多,可能就会存在多重共线性的问题(自变量之间存在相关关系)。

  • 判定
    计算各对变量之间的相关关系。

  • 处理
    这个问题有点大,可以后续说明,读者可以先自行了解。一般来说就是剔除,使自变量尽可能不相关

  • 变量选择
    因为在建立回归模型的时候,不能将所有自变量都引进入模型,所以需要一定筛选。

    • 向前选择
    • 向后剔除
    • 逐步回归
    • 最优子集
      上述相关方法读者可以自行了解。

二、编程篇

yi = βxi + α + ɛi

我们假设y是用户i每天花在网站上的分钟数,xi是用户i已有的朋友数,而ɛi是误差项,我们求出alpha和beta就可以进行预测了

#预测
def predict(alpha,beta,x_i):
    return beta * x_i + alpha
#计算误差
def error(alpha,beta,x_i,y_i):
    return y_i - predict(alpha,beta,x_i)

单纯把各个误差加起来不是很合理,因为有的预测太高,有的太低,相加会抵消,因此求误差的平方和

def sum_of_squared_errors(alpha,beta,x,y):
    return sum(error(alpha,beta,x_i,y_i)**2
               for x_i, y_i in zip(x,y))

也可利用最小二乘法选择alpha和beta,使得sum_of_squared_errors 尽可能小

#利用微积分求:
def least_squares_fit(x,y):
    beta = correlation(x,y) * standard_deviation(y) / standard_deviation(x)
    alpha = mean(y) - beta* mean(x)
    return alpha,beta

用决定系数(coefficient of determination)R^2 这一指标来评估模型对数据的拟合效果

def total_sum_of_squares(y):
    return sum(v**2 for v in  de_mean(y))
def r_squared(alpha,beta,x,y):
    return 1.0 - (sum_of_squared_errors(alpha,beta,x,y) / total_sum_of_squares(y))

利用梯度下降法:

定义个theta = [alpha,beta]
def squared_error(x_i,y_i,theata):
   alpha,beta = theta
   return error(alpha,beta,x_i,y_i) ** 2   
def squared_error_gradient(x_i,y_i,theta):
   alpha, beta = theta
   return [-2*error(alpha,beta,x_i,y_i),  #alpha偏导数
           -2*error(alpha,beta,x_i,y_i)*x_i] #beta偏导数

为什么选择最小二乘法?其中一个最大原因就是最大似然估计(maximum likelihood estimation)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容