机器学习算法广泛,各种衍生算法太多太多,各显其招。这里根据自己工作学习的经验只能大概总结如下(按一般数据处理流程区分)
数据预处理算法
基本处理
- 归一化 :
0~1之间
- 标准化:
均值为0,方差为1
- 异常点的去除:
一般与均值的差值大于2倍标准差的数据点
- 缩放:
也是一种归一化,对于极大值或者极小值不对称分布的特征施加转换,如:对数log缩放
滤波
- 均值滤波
- 中位值滤波
- 一阶滞后滤波
- 卡尔曼滤波:5个公式
特征提取算法
- 正交信号矫正(OSC)
- 连续投影算法(SPA)
- 小波变换
- 经验模态分解(EMD)
- 黄变换(HHT)
监督学习建模算法
基本上所有分类方法均可以用于回归
分类算法
- 感知机(Perceptron):
决策函数:sign(W*X+b);>0为1类,<0为-1类
- 逻辑回归(LogisticRegression):
- 随机梯度下降(Stochastic Gradient Descent)
- K-近邻(KNN)
- 支持向量机(SVM)
- 决策树(DecisionTreeClassifier)
- 朴素贝叶斯(Naive Bayes)
- 集成学习(bagging、boosting):
bagging: 随机森林(RandomForest); boosting: Adaboost、GBDT、XGBoost
- 人工神经网络(ANN):BP网络
- 线性判别分析(LDA):
有监督降维
回归算法
- 多元线性回归(MLR):
y = W*X+b; w,b由最小二乘法求得
- 偏最小二乘法(PLS):
yi = W*X+b;偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析;基于因变量为多个,自变量为多个。先同时求二者的主成分,使两个主成分的相关性达到最大,然后求各个因变量与自变量的主成分之间的回归方程,再反推回原变量间的回归方程。
- 岭回归(Ridge Regression)
- 逐步回归(Step Regression)
非监督学习建模算法
- k-均值(聚类)
- 高斯混合模型GMM(聚类)
- 主成分分析PCA(降维)
- 核主成分分析K-PCA
- 局部保持投影LPP(降维)
- 流形学习Manifold Learning
- 独立成分分析ICA
模型评价指标
pass
参数优化算法
- 梯度下降(Gradient Descent)
- 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)
- 拉格朗日乘数法
- 粒子群算法(PSO)
- 遗传算法(GA)
自然语言处理三大基本算法:
- N-gram
- HMM
- CRF
深度学习建模算法
- CNN
- RNN(LSTM)