1.什么是机器学习
略。
直接谷歌:机器学习西瓜书 周志华老师写的
2.机器学习种类
监督式学习:从标注数据中学习预测模型,本质是学习输入到输出的映射统计规律。
主要运用在
分类问题:利用已知训练数据集选择方法学习一个分类器,利用该分类器对新输入实例进行分类。例如图像处理(人脸识别、识花识猫识狗等等),文本分类(正面意见、反面意见,词频分类,垃圾邮件等等)。常用方法:k邻近,感知机,决策树,朴素贝叶斯,逻辑斯蒂回归,支持向量机,神经网络等等。二分类问题常用判断指标:精确率precision,召回率recall ,F1值 。定义概念略,这部分是统计学知识。
标注问题:学习一个模型,使它对观测序列给出标记序列作为预测。自然语言处理广泛运用。常用方法如隐马尔可夫模型,条件随机场。
回归问题:用于预测输入变量和输出变量之间的关系。按输入变量个数可以分为一元回归,多元回归,按输入输出变量之间的关系类型可以分为线性回归,非线性回归。最简单的线性回归其实就是以前中学学过的线性代数学过了。回归问题更多用来预测市场走势、股价、客户满意度等。
李航老师《统计学系方法》第二版里有常用的10种监督学习方法总结
无监督学习:从无标注数据中学习预测模型,本质是学习数据中的统计规律。常用方法有聚类、降维、话题分析、图分析。
强化学习:在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督:利用少量标注、大量未标注数据预测模型
主动学习:机器不断给出实例进行标注,利用标注数据学习预测模型的机器学习问题。
3.代价函数与优化目标
监督学习中,在假设空间F中选取模型f作为决策函数,对于给定的输入X由f(X)给出对应输出Y,输出的预测值f(X)与真实值Y不一定相等,由此给出一个代价函数cost function来度量不一致的程度。而学习的目的就是期望预测值与真实值差距最小,也就是我们预测的结果可以无限接近真实情况。
4.泛化能力
由该方法学习到的模型对未知数据的预测能力,我们称为模型的泛化能力。模型的误差越小,泛化能力越强。
由此我们知道当我们有数据集时,需要对数据进行划分,将它分为测试集train和训练集test。在训练集上进行训练,得到f(X)后与测试集Y进行比较,使误差最小。
5.过拟合
预测学习中,我们希望有一个最合适对模型,其参数能最接近真实模型。然而如果一味追求对训练数据的预测能力,则预测模型的复杂度往往会超过真实模型,表现为对训练集预测完美,但对未知数据预测很差。这种情况称为过拟合。避免过拟合通常会采取正则化或者交叉验证的办法。
6.正则化与交叉验证
正则化就是在函数后面加一个正则项或叫做惩罚项。正则项一般是模型复杂度单调递增函数,即模型越复杂,正则项越大。正则项符合奥卡姆剃刀原理:在所有可能选择的模型中,能够很好的解释已知数据且十分简单的才是最好的模型,也是最应该选择的模型。
交叉验证一般用来选择参数。将给定数据进行切分,重复使用,在此基础上反复训练、测试。切分多少份,就训练多少次。一般情况下,取最后的平均值来得出最优参数,得出最佳模型。