1、机器学习定义:
专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构(利用数据或者经验等)使之不断改善自身的性能。
2、机器学习分类:
监督学习:在训练时提供训练样本和类别标签。
无监督学习:在训练时只提供训练样本,不提供类别标签,发现规律,利用规律。
半监督学习:训练数据有部分有标签,部分没有标签。对有标识的建模,用已经建好的模型,对没有标签的预测,选择确定性高的样本贴上标签,原来有标签的数据跟筛选出来的数据重新建模。
强化学习:通过试错发现最优策略,而不是带有标签的学习。
3、在机器学习中,要解决某一问题,通常把问题分为分类、回归、聚类、强化学习;有监督的学习主要有分类、回归;无监督的学习主要有聚类
分类问题:根据数据样本抽取出的特征,判定其属于有限个类别中的哪一个。大多会产出一个概率值,对概率值排序得到该样本属于哪个类别的概率最高。
回归问题:根据样本上抽取的特征,预测连续值结果。
聚类问题:根据数据样本抽取的特征,挖掘出数据的关联模式。
4、机器学习流程
数据预处理
模型学习
模型评估
新样本预测
5、训练集和验证集的划分:
方法1:先将数据分为训练集和测试集,再将训练集分为真正的训练集和验证集。验证集是为了调整超参。
方法2:采用交叉验证法,这种方法可以避免方法1的”碰巧“事件。一般都会选择这个方法。
这两种方法都是为了选出最优的超参。