1、线性核函数 不通过升维解决线性可分问题 (计算内积)
径向基核函数 (RBF) 高斯核函数
p(A|B)B是条件 求A
朴素:是指事件之间的相互独立无影响
GaussianNB(高斯朴素贝叶斯分类器):适合用于样本的值是连续的,数据呈正态分布的情况 x是连续的
MultinominalNB(多项式朴素贝叶斯分类器):适合用于大部分属性为离散值的数据集
BernoulliNB(伯努利朴素贝叶斯分类器):适合用于特征值为二元离散值或是稀疏的多元离散值的数据集
欧氏距离:欧几里得距离
闵可夫斯基距离(Minkowski distance)又称闵氏距离
最著名的原型聚类算法有K-Means.
噪声密度(Density-Based Spatial Clustering of Applications with Noise, 简写DBSCAN)
不用人为确定聚类个数
可以处理噪声点
(噪声比较多的时候,未知聚类个数)
核心点:邻域半径内样本数量大于n(算自己)
机器学习总结:
1、数据预处理
将数据清洗成干净的数据,并处理成机器学习喜欢的样子
1、均值移除 将每列的平均值变成0
2、范围缩放
3、归一化
4、二值化 细节损失 不可逆
5、独热编码 可逆
6、标签编码 字符串值转
2、回归模型(预测值为连续值)
1、线性回归 L1 laso回归 范数正则化 L2 岭回归
2、多项式回归 增加高次项 +线性回归
3、决策树 如何选取最优分割特征 何时停止分裂
4、集成学习 Adaboost
GBDT
随机森林
5、指标
print('平均绝对误差:',sm.mean_absolute_error(test_y,pred_test_y))
print('平均平方误差:',sm.mean_squared_error(test_y,pred_test_y))
print('中位数绝对误差:',sm.median_absolute_error(test_y,pred_test_y))
print('R2得分',sm.r2_score(test_y,pred_test_y))
3、分类模型(离散)
1、逻辑回归 线性回归+ 逻辑函数
决策树:
信息熵 信息增益ID3 增益率 C4.5 基尼系数CART
集成学习
支持向量机:
间隔最大化
核函数:
线性核函数
多项式核函数
径向基核函数(回顾)
朴素贝叶斯:
朴素+贝叶斯 特征独立假设+贝叶斯定律
评估指标:
1、精度和错误率
2、查准率召回率 和F1得分(公式回顾)
3、PR曲线 ROC曲线 AOC值
4、混淆矩阵
5、分类报告
4、聚类模型(根据输入数据的相似程度,将相似样本)
1、kmeans
2、DBSACAN
3、凝聚层次 (回顾下)
评估指标:
轮廓系数 内密外疏
优化方法
1、验证曲线
2、学习曲线
3、网格搜索