机器学习:
依赖先验知识设计合理的学习结构,设计相应的学习算法,从经验数据中得到知识并对现有学习结构进行更新,使得既定的学习目标最优化;
流派:
符号学派:有限学习,仅对既有知识做排序或组合上的调整,较少引入全新的带有高风险的知识;
贝叶斯学派:引入概率工具描述事件的不确定性,将复杂事件之间的关系统一到概率框架中,将推理过程归结为后验概率,计算比较复杂;
连接学派:即神经网络学派,常用层次结构,训练方法一般采用反向传播算法,不确定性抵抗能力弱,易过拟合,可解释性差,但计算简单;
进化仿生学派:优胜劣汰,在不同结构和参数的模型中得到优秀模型,采用遗传算法。
基础:
权衡:数据量与模型复杂度、复杂度与效率、内存使用量与计算时间、表达能力与可扩展性等;
过拟合:
参数过拟合:模型训练过程中对参数调节过于细致,对训练数据过度学习;
结构过拟合:选择的模型过于复杂,以致对训练数据描述过于精细;
解决方法:1加入测试集检测性能,再加验证集选择模型;2加正则项;
TotalError = Bias+Variance+Noise( 预测误差 = Bias+Variance )
偏差(bias):模型本身的精度,即模型对数据的表达能力,即预测的期望和真实值之间的差距;
方差(variance):模型的泛化能力,即在不同数据集下训练模型的表现情况,即模型对训练数据的敏感度;
噪音(noise):观察数据本身带来的不确定性;
No Free Lunch 原则:如果某一个模型在某一条件、,某一数据环境下具有某种优势,则在其它条件、其它数据环境下必然具有相应的劣势;
Occam 剃刀准则:在保证模型表达能力的前提下尽量选择简单的模型;
学习方法分类
监督与非监督; 线性与非线性; 参数与非参数; 生成与区分性;概率与神经;