线性回归
1.线性模型
是否是线性模型取决于被求系数之间是否为线性关系,与样本特征变量的形式无关。
2.最小二乘法OLS
通过最小化样本真值与预测值之间的方差和来达到计算出被求系数的目的。
3.最小二乘法的不足
OLS随着特征维度的增加会出现线性模型的过度拟合。
4.岭回归
通过改变回归目标函数,达到控制回归参数值随着维度疯狂增长的目的。
缺点:参数很难达到0值,对数据的产生存储运输计算产生浪费。
5.Lasso回归
将不重要的特征参数计算为0。
梯度下降
1.假设函数与损失函数
步长:在每一步梯度下降时向目标方向前进的长度。
假设函数:由特征产生目标变量的函数。
损失函数:给任意参数组合打分的函数。
2.随机梯度下降
时间短、移动方向期望高、易找到全局最优解
3.增量学习
边读取数据边训练,即每次训练在之前训练结果的基础上进行
支持向量机
1.最优超平面
1)无法找到其他绘制方法使得到两条虚线之间的距离更大。
2)最有超平面到与两种类型距其最近点有相等的距离。
虚线上的训练数据点称为支持向量。
2.软间隔
允许计算超平面时在训练集上存在错误数据。
松弛因子:权衡正确分类训练数据和间隔尽量大。
3.线性不可分问题
任何有限维度的非线性问题在更高难度的空间里总可以变化成线性可分问题。
SVM使用拉格朗日乘子法实现对超平面求解问题的升维。
4.核函数
输入两个低维空间向量,返回高维空间点积的函数。
常用核函数:线性核、多项式核、高斯径向基核、sigmoid核。
朴素贝叶斯分类
1.基础概率
2.贝叶斯分类原理
预测-训练-假设性独立
要求:n维特征之间相互独立
3.高斯朴素贝叶斯
使用高斯分布
4.多项式朴素贝叶斯
使用多项分布作为似然度概率模型的分类器。
5.伯努利朴素贝叶斯
使用伯努利分布作为似然度概率模型。
高斯过程
假设训练数据来自无限空间、并且各特征都符合高斯分布的有监督建模方式。
1.随机过程
研究一组无限个随机变量内在规律的学科。
2.无限维高斯分布
把每个随机变量都用高斯分布进行建模,整个随机过程就是高斯过程。
高斯分布的特点使得高斯分布利于计算。
将核方法应用在协方差举证,多元高斯分布具有表征高维空间样本之间关系的能力。
预测
白噪声处理
决策树
1.最易于理解的模型
从大量的样本数据特征中找到分类决策路径。
2.熵的作用
熵用于衡量系统的不稳定程度。信息熵用于量化数字信息的价值。
信息熵越高说明不确定性越大,信息表明不确定性越大事件的结果时,信息价值越高。
基尼系数:衡量信息价值,便于计算机计算。
决策树选择根节点的依据时用该特征进行数据划分后得到的信息增益最大。
决策树算法:ID3,C4.5,CART
3.树的可视化
集成学习
将数据集划分为各种子集或权重变换后用较弱的基模型拟合,然后综合若干个基模型的预测作为最终结果。
Bagging Method:若干个基模型在若干个训练子集上独立训练,预测时综合基模型结果。
Boosting Method:迭代训练基模型,根据结果调整基模型训练数据,预测时使用所有子模型结果。
1.偏差与方差
有监督学习问题可以归纳为对两种系统错误的最小化问题,偏差和方差。
偏差对应拟合不足。
方差对应过度拟合。
集成学习能自动找到最优错误偏差和方差的效果。
2.随机森林
使用决策树作为基模型的集成学习方法。
集成框架:对训练集随机抽样,分别训练形成若干决策树。
有放回采样:扩充训练样本空间,训练出适应性更强的模型。
out-of-bag-estimation:使用训练数据本身进行模型准确率评估。
3.自适应增强
通过调整训练集中每个样本的权重使得每次迭代在不同的训练集上运行。
综合话题
1.参数与非参数学习
机器学习任务可以看成对数据特征与目标值之间的映射函数的拟合。
参数学习:在训练前假设该函数的形式,最优化函数中的参数。
非参数学习:训练前无需定义函数形式,由数据本身去寻找可能的映射关系。
2.one-vs-all 与 one-vs-one
二值分类器转换为多值分类器
3.评估工具
分割数据集、交叉验证、交叉数据分割、scoring参数
4.超参数调试
5.多路输出