理解回归

回归主要关注确定一个唯一的因变量(dependent variable)(需要预测的值)和一个或多个数值型的自变量(independent variables)(预测变量)之间的关系。我们首先假设因变量和自变量之间的关系遵循一条直线,即线性关系。

用来描述数据拟合线过程的“回归”(regression)一词来源于19世纪后期Francis Galton爵士遗传学的研究中。Galton发现,尽管父亲的身高极矮或者极高,但是他们儿子的身高却有更接近于平均身高的趋势,于是,他称这种现象为“回归平均值”(regression to the mean)。

你可能还记得代数中是以类似于y=a+bx的斜截式来定义直线的,其中,y是因变量,x是自变量。在这个公式中,斜率(slope)b表示每增加一个单位的x,直线会上升的高度;变量a表示当x=0时y的值,它称为截距,因为它指定了直线穿过垂直轴时的位置。

回归方程使用类似于斜截式的形式对数据建立模型。该机器的工作就是确定a和b,从而使指定的直线最适合用来反映所提供的x值和y值之间关系,这可能不是完美的匹配,所以该机器也需要有一些方法来量化误差范围,我们很快就会深入讨论这个问题。

回归分析通常用来对数据元素之间的复杂关系建立模型,用来估计一种处理方法对结果的影响和推断未来。一些具体的应用案例包括:

❑ 根据种群和个体测得的特征,研究他们之间如何不同(差异性),从而用于不同领域的科学研究,如经济学、社会学、心理学、物理学和生态学。

❑ 量化事件及其相应的因果关系,比如可应用于药物临床试验、工程安全检测、销售研究等。

❑ 给定已知的准则,确定可用来预测未来行为的模型,比如用来预测保险赔偿、自然灾害的损失、选举的结果和犯罪率等。

回归方法也可用于假设检验,其中包括数据是否能够表明原假设更可能是真还是假。回归模型对关系强度和一致性的估计提供了信息用于评估结果是否是由于偶然性造成的。

由于假设检验在技术上并不是一种学习任务,所以我们不会很深入地介绍它。如果你对这个主题感兴趣,你可以从入门的统计学教科书开始学习。

与我们到目前为止已经介绍过的其他机器学习算法不同,回归分析并不等同于一个单一的算法。相反,它是大量方法的一个综合体,几乎可以应用于所有的机器学习任务。如果你被限制只能选择一种单一的分析方法,那么回归方法将是一个不错的选择。你可以投身整个事业生涯来来专门研究这种方法,而不去管其他方法,即使如此你还有可能学不完。

在本章中,我们只关注最基本的回归模型,即那些使用直线回归的模型,这叫做线性回归(linear regression)。如果只有一个单一的自变量,那就是所谓的简单线性回归(simple linear regression),否则,称为多元回归(multiple regression),这两个模型都假设因变量是连续的。

对于其他类型的因变量,即使是分类任务,使用回归方法都是可能的。例如,逻辑回归(logistic regression)可以用来对二元分类的结果建模;而泊松回归(Poisson regression),以法国数学家Siméon Poisson的名字命名,可以用来对整型的计数数据建模。相同的基本原则适用于所有的回归方法,所以一旦你理解了线性情况下的回归方法,你就可以研究其他的回归方法。

线性回归、逻辑回归、泊松回归以及许多其他的回归都属于一类模型,称为广义线性模型(Generalized Linear Model,GLM),使得回归能适用于许多类型的数据。线性模型可以通过使用连接函数(link function)进行泛化,其中,连接函数指定x和y之间的数学关系。

尽管简单线性回归中有“简单”两个字,但并没有简单到不能解决复杂的问题。在下一节中,我们将看到应用简单线性回归模型如何可能避免一场本来可以避免的悲剧性的工程灾难。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,699评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,124评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,127评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,342评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,356评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,057评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,654评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,572评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,095评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,205评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,343评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,015评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,704评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,196评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,320评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,690评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,348评论 2 358

推荐阅读更多精彩内容

  • 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回...
    小灰灰besty阅读 1,413评论 0 5
  • 回归分析 - 刺猬的温驯 - 博客园 http://www.cnblogs.com/chenying99/p/4...
    葡萄喃喃呓语阅读 1,647评论 1 7
  • 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时...
    wyrover阅读 12,293评论 0 13
  • 每个人的身体里面都住着一个有能力、有力量、有智慧去面对生活里面的困境、困惑和问题的自己。 当一个人觉得自己被困住了...
    SyoCga阅读 434评论 1 5
  • 今天我来详细介绍一下多线程的用法 包括线程整个的生命周期等等 1.0 NSThread 三种表现形式 详情看下面...
    大斑马小斑马阅读 341评论 1 3