第三章 有监督学习:分类和回归

线性回归

1.线性模型
是否是线性模型取决于被求系数之间是否为线性关系,与样本特征变量的形式无关。
2.最小二乘法OLS
通过最小化样本真值与预测值之间的方差和来达到计算出被求系数的目的。
3.最小二乘法的不足
OLS随着特征维度的增加会出现线性模型的过度拟合。
4.岭回归
通过改变回归目标函数,达到控制回归参数值随着维度疯狂增长的目的。
缺点:参数很难达到0值,对数据的产生存储运输计算产生浪费。
5.Lasso回归
将不重要的特征参数计算为0。


梯度下降

1.假设函数与损失函数
步长:在每一步梯度下降时向目标方向前进的长度。
假设函数:由特征产生目标变量的函数。
损失函数:给任意参数组合打分的函数。
2.随机梯度下降
时间短、移动方向期望高、易找到全局最优解
3.增量学习
边读取数据边训练,即每次训练在之前训练结果的基础上进行


支持向量机

1.最优超平面
1)无法找到其他绘制方法使得到两条虚线之间的距离更大。
2)最有超平面到与两种类型距其最近点有相等的距离。
虚线上的训练数据点称为支持向量。
2.软间隔
允许计算超平面时在训练集上存在错误数据。
松弛因子:权衡正确分类训练数据和间隔尽量大。
3.线性不可分问题
任何有限维度的非线性问题在更高难度的空间里总可以变化成线性可分问题。
SVM使用拉格朗日乘子法实现对超平面求解问题的升维。
4.核函数
输入两个低维空间向量,返回高维空间点积的函数。
常用核函数:线性核、多项式核、高斯径向基核、sigmoid核。


朴素贝叶斯分类

1.基础概率
2.贝叶斯分类原理
预测-训练-假设性独立
要求:n维特征之间相互独立
3.高斯朴素贝叶斯
使用高斯分布
4.多项式朴素贝叶斯
使用多项分布作为似然度概率模型的分类器。
5.伯努利朴素贝叶斯
使用伯努利分布作为似然度概率模型。


高斯过程

假设训练数据来自无限空间、并且各特征都符合高斯分布的有监督建模方式。
1.随机过程
研究一组无限个随机变量内在规律的学科。
2.无限维高斯分布
把每个随机变量都用高斯分布进行建模,整个随机过程就是高斯过程。
高斯分布的特点使得高斯分布利于计算。
将核方法应用在协方差举证,多元高斯分布具有表征高维空间样本之间关系的能力。
预测
白噪声处理


决策树

1.最易于理解的模型
从大量的样本数据特征中找到分类决策路径。
2.熵的作用
熵用于衡量系统的不稳定程度。信息熵用于量化数字信息的价值。
信息熵越高说明不确定性越大,信息表明不确定性越大事件的结果时,信息价值越高。
基尼系数:衡量信息价值,便于计算机计算。
决策树选择根节点的依据时用该特征进行数据划分后得到的信息增益最大。
决策树算法:ID3,C4.5,CART
3.树的可视化


集成学习

将数据集划分为各种子集或权重变换后用较弱的基模型拟合,然后综合若干个基模型的预测作为最终结果。
Bagging Method:若干个基模型在若干个训练子集上独立训练,预测时综合基模型结果。
Boosting Method:迭代训练基模型,根据结果调整基模型训练数据,预测时使用所有子模型结果。
1.偏差与方差
有监督学习问题可以归纳为对两种系统错误的最小化问题,偏差和方差。
偏差对应拟合不足。
方差对应过度拟合。
集成学习能自动找到最优错误偏差和方差的效果。
2.随机森林
使用决策树作为基模型的集成学习方法。
集成框架:对训练集随机抽样,分别训练形成若干决策树。
有放回采样:扩充训练样本空间,训练出适应性更强的模型。
out-of-bag-estimation:使用训练数据本身进行模型准确率评估。
3.自适应增强
通过调整训练集中每个样本的权重使得每次迭代在不同的训练集上运行。


综合话题

1.参数与非参数学习
机器学习任务可以看成对数据特征与目标值之间的映射函数的拟合。
参数学习:在训练前假设该函数的形式,最优化函数中的参数。
非参数学习:训练前无需定义函数形式,由数据本身去寻找可能的映射关系。
2.one-vs-all 与 one-vs-one
二值分类器转换为多值分类器
3.评估工具
分割数据集、交叉验证、交叉数据分割、scoring参数
4.超参数调试
5.多路输出

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容