最近开始系统性学习机器学习,做如下简述。日后再分门别类地详细说明。
决策树
决策跟编程语言中的if esle有异曲同工之妙。根据样本的特征是否满足某一条件,按是和否分支,最后叶子节点表示某个分类。在它基础之上的算法有随机森林等
SVM
最简单的版本就是在二维平面上寻找两种分类的最优超平面。可通过核函数将低维数据映射到高维。SVM的数学原理很完善。本质上是最小化支持向量到超平面的距离,可以用拉格朗日函数求解凸优化问题,或者获取其对偶函数,再结合KKT条件。
朴素贝叶斯分类
基于贝叶斯定理和特征独立,主要运用条件概率
逻辑回归(LR)
有待学习
K近邻
对某个待测样本选择离他最近的K个样本,这K个样本大多属于哪个类别,就认为这个待测样本属于哪个类别。(不需要训练?)
K-means
初始化k(类别数)个点作为类别中心。令各训练样本的类别为中心最近的类型,再重新计算中心,迭代至收敛。
随机森林
多个决策树的集合。每个决策树的训练样本是总样本的一部分。
感知机
模拟人脑神经元
神经网络
多个感知机组成,使用BP算法更新权值
集成学习
将多个弱分类器集成在一起
常见Boosting等,随机森林也会集成学习
马尔科夫链
随机过程中,每个单词之前不是独立的
主成分分析(PCA)
有待学习
奇异值分解(SVD)
有待学习
独立成分分析(ICA)
有待学习