集成学习（二）机器学习基础模型回顾

本文主要内容来自datawhalechina/ensemble-learning (github.com)，摘要性的写了“阅读笔记”，强烈推荐阅读了本文粗略的笔记后，花时间细细阅读链接中的教案。

一、机器学习
机器学习：利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。
可分为有监督学习和无监督学习。
有监督学习：给定某些特征去估计因变量，即因变量存在的时候，我们称这个机器学习任务为有监督学习
无监督学习：给定某些特征但不给定因变量，建模的目的时学习数据本身的结构和关系

很喜欢原文中这里使用“因变量”这个词，感觉和以前熟悉的“函数”相关概念靠的更近了，陌生感降低了很多。

机器学习

而有监督学习又可分为回归和分类
回归：因变量是连续型变量
分类：因变量是离散型变量

重点：数据形式约定

这里真的是重点，只有熟记了这些符号的含义，阅读后续教程才不会恐惧，才不会被轻易劝退。[Doge]

第 $i$ 个样本： $x_i = (x_{i1}, x_{i2}, ... , x_{ip}, x_i)^T, i=1,2,...,N$

因变量 $y=(y_1,y_2,...,y_N)^T$

第 $k$ 个特征： $x^{(k)}=(x_{1k},x_{2k},...,x_{Nk})^T$
-特征矩阵： $X=(x_1,x_2,...,x_N)^T$

二、使用sklearn构建完整的机器学习

上来就是重点！一个完整的机器学习项目的步骤：

明确项目任务：回归/分类
收集数据集并选择合适的特征
选择度量模型性能的指标
选择具体的模型并进行训练以优化模型
评估模型的性能并调参

七月在线总结的完整机器学习项目是这样滴（对比主要多了模型上线步骤，拆分的更细一些）：

抽象成数学问题

获取数据

特征预处理与特征选择

训练模型与调优

模型诊断

模型融合

上线运行

2.1 使用sklearn构建完整的回归项目

好家伙，好家伙，这个教案太猛了！本以为是按照惯例来个线性回归+最小二乘法+波士顿房价完事儿的，没想到这教案使劲往深里挖呀！跪了……
简单列一下教案中回归这里的脉络

回归分析是一种预测性的建模技术，它研究的因变量（目标）喝自变量（特征）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点，目标是使曲线到数据点的距离差异最小。

2.1.1. 收集数据集并选择合适的特征

2.1.2. 选择度量模型性能的指标

MSE均方误差： $MSE(y,\hat{y})=\frac{1}{n_{samples}}\sum_{i=0}^{n_{samples}}(y_i-\hat{y}_i)^2$
MAE平均绝对误差： $MAE(y,\hat{y})=\frac{1}{n_{samples}}\sum_{i=0}^{n_{samples}}\mid y_i-\hat{y}_i\mid$
$R^2$ 决定系数： $R^2(y,\hat{y})=1-\frac{\sum_i^n(y_i-\hat{y}_i)^2}{\sum_i^n(y_i-\overline{y}_i)^2}$
解释方差得分： $explanined_variance(y,\hat{y})=1-\frac{Var[y-\hat{y}]}{Var[y]}$
sklearn中更多模型性能指标

2.1.3. 选择具体的模型并进行训练

2.1.3.1线性回归模型

线性回归实例演示

(a) 最小二乘估计
(b) 几何解释
(c) 概率视角

线性回归模型假设目标值与特征之间线性相关，既满足一个多元一次方程。通过构建损失函数，求解损失函数最小时的参数w

假设：数据集 $D={（x_1,y_1),...,(x_N,y_N)},x_i\in R^p,y_i\in R,i=1,2,...,N,X=(x_1,x_2,...,x_N)^N,Y=(y_1,y_2,...,y_N)^T$

假设X和Y之间存在线性关系，模型的具体形式为 $\hat{y}=f(\omega)=\omega^Tx$

2.1.3.2. 线性回归的推广

(a) 多项式回归实例演示
(b) 广义可加模型(GAM) 实例演示

广义可加模型(GAM)实际上是要给线性模型推广至非线性模型的一个框架，在这个框架中，每一个变量都用一个非线性函数来代替，但是模型本身保持整体可加性。GAM模型不仅仅可以用在线性回归的推广，还可以将线性分类模型进行推广。推广形式举例：
标准的线性回归模型：
$y_i=\omega_0+\omega_1x_{i1}+...+\omega_px_{ip}+\epsilon_i$
GAM模型框架：
$y_i = \omega_0+\sum^p_{j=1}f_j(x_{ij}+\epsilon_i$

2.1.3.3. 回归树

回归树实例演示

基于树的回归方法主要是依据分层和分割的方式将特征空间划分为一系列简单的区域。对某个给定的待预测的自变量，用他所属区域中训练集的平均数或者众数对其进行预测。由于划分特征空间的分裂规则可以用树的形式进行概括，因此称为决策树方法。
结点有两种类型：内部节点(internal node)和叶节点(leaf node)。内部节点表示一个特征或属性，叶节点表示一个类别或者某个值。

建立回归树的过程大致分为两步：

a. 将自变量的特征空间(即 $x^{(1)},x^{(2)},x^{(3)},...,x^{(p)}$ 的可能取值构成的集和分割成 $J$ 个互不重叠的区域 $R_1,R_2,...,R_i$ 。
b. 对落入区域 $R_j$ 的每个观测值作相同的预测，预测值等于 $R_j$ 上训练集的因变量的简单算术平均。

2.1.3.4. 支持向量机回归(SVR)

SVR实例演示

在线性回归的理论中，每个样本点都要计算平方损失，但是SVR却是不一样的。SVR认为：落在 $f(x)$ 的 $\epsilon$ 邻域空间中的样本点不需要计算损失，这些都是计算正确的，其余的落在 $\epsilon$ 邻域空间意外的样本才需要计算损失。

预备知识：

约束优化问题(P)
KKT条件（最优解的一阶必要条件）
对偶理论

优化问题：
$min_{\omega,b,\xi_i,\hat{\xi}_i}\frac{1}{2}\parallel\omega\parallel^2+C\sum^N_{i=1}(\xi_i,\hat{\xi}_i)$
$s.t.\quad f(x_i)-y_i\leq\epsilon+\xi_i$
$y_i-f(x_i)\leq\epsilon+\hat{\xi}_i$
$\xi_i,\hat{\xi}_i\leq 0,\quad\quad i=1,2,...,N$
引入拉格朗日乘数，对 $\omega,b,\xi,\hat{\xi}$ 求偏导等于零，得 $\omega=\sum^N_{i=1}(\hat{\alpha}_i-\alpha_i)$ 。求解过程需满足KKT条件。
SVR得解形如： $f(x)=\sum^N_{i=1}(\hat{\alpha}_i-\alpha_i)x^T_ix+b$

2.1.4. 优化基础模型

我们建立机器学习得目的并不是为了在已有得数据集，也就是训练集上效果表现非常优异，而是在未知且情况复杂得测试数据集上表现优异，即测试集。

2.1.4.1 训练均方误差与测试均方误差

项目中要寻找的最优模型是测试均方误差达到最小时对应的模型，仅仅训练均方误差达到最小是不行的。当模型在训练误差很小，而测试误差很大时，这种情况称为过拟合。

2.1.4.1 偏差-方差的权衡

偏差（Bias）与方差（Variance） - 知乎 (zhihu.com)
图片来自Understanding the Bias-Variance Tradeoff (fortmann-roe.com)

偏差&方差

refer:
视频链接：
https://www.bilibili.com/video/BV1Mb4y1o7ck?from=search&seid=6085778383215596866
教案链接：https://github.com/datawhalechina/ensemble-learning
机器学习项目的完整流程，值得收藏！ - 七月在线 - OSCHINA - 中文开源技术交流社区
 偏差（Bias）与方差（Variance） - 知乎 (zhihu.com)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353