介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理
各种应用场景之中的问题繁杂多样,不同的具体问题,往往各有其独有的优解。计算机通过执行算法——也就是指令的序列,来解决一个问题。但面对繁复的问题,往往由于缺乏相应的知识,不能保证对每种问题都了如指掌,从而很难直接最优的解决方案供计算机执行。
但作为补偿,我们有数据。从数据中提取有用的知识,解决问题,是数据应用的核心目的。
机器学习在大数据中的应用可称为数据挖掘,其发掘数据中所蕴含的知识信息。机器学习也是人工智能的组成部分。智能化的系统,在变化的应用环境中需要具备学习的能力,来适应这些变化。这样,系统的设计者就不必预见所有的情况,并未它们提供解决方案了。同样,在人工智能常见的应用场景——视觉、语音识别等方面,机器学习也提供了很多帮助。
机器学习在构建模型时利用了统计学理论,其核心任务就是用样本推理(这也正是统计学的任务)。而计算机科学在机器学习中的角色分为两部分。第一,在训练时,需要对优化问题求解、同时面对大数据的存储和处理需要保证算法的高效和稳定。第二、在学习得到模型后,使用模型进行推理的算法也需要是高效的。
机器学习的主要应用包括 学习关联性、分类、回归、聚类、策略增强学习等。
根据数据情况,可分为监督学习和非监督学习。相比于监督学习,非监督学习——没有输出信息,我们的目的是发现输入空间所具有的某种结构。统计学中,可称为密度估计。通过密度估计,也可实现回归的分析目的。
对于属于非监督学习的聚类问题,其数据,相比监督学习的数据缺少输出标签。分类问题是利用数据已有的标签,学习属于同一标签下数据的特征。而聚类与分类问题的不同,就在于类标签不是事先已知的。
此外还有增强学习也属于机器学习的一种应用。系统多次输出的动作构成策略,而学习目的是评估策略的好坏,进而产生好的策略。
本文档,旨在以机器学习的目的(分类、回归等)为线索,梳理各种机器学习方法。对同样的学习目的,尽量将各种方法归在一起介绍,着重对比。
对于分类问题,基于似然的方法假设类似然的分布,再估计分布参数。这时需要对参数方法、非参数方法对类似然的估计进行对比。而基于判别式的方式直接估计判别式,其中包括逻辑斯蒂函数、支持向量机、决策树的方法。对于回归问题也类似,也要注重对比参数和非参数方法,以及回归树的区别。基于基本的机器学习方法,再进一步展开到集成学习、强化学习的内容。
这是因为很多方法可以用于实现不同的学习目的。将方法手段技巧,与学习目的分开讨论,有利于更好掌握机器学习基础理论。