
KNN K邻近
KNN 的原理就是,对于一个犹豫不决的选择,我们先参考周围最近的一些已经做出的选择,然后再做出相似的决定,你也可以记成:“近朱者赤,近墨者黑”。
总的来说,当 K 越小的时候,模型就越容易过拟合,因为预测结果与最近一个样本点强相关。而 K 越大的时候,就越容易欠拟合,因为预测结果要考虑所有样本的情况,就相当于没有预测。所以,对于 K 的取值,一种有效的办法就是从 1 开始不断地尝试,并对比准确率,然后选取效果最好的那个 K 值。
线性回归
设定函数,预测结果,多元回归方程

逻辑回归
解决分类问题,答案是 “是和否”

朴素贝叶斯
贝叶斯: 没有绝对的对错,只有不断迭代的信念。
朴素贝叶斯假设相互独立

P(A):堵车的概率,也就是事件 A 发生的概率;
P(B):下雨的概率,也就是事件 B 发生的概率;
P(B|A):在堵车的情况下,北京下雨的概率,也就是在 A 的情况下,发生 B 的概率;
P(A|B):在北京下雨的情况下,堵车的概率,也就是在 B 的情况下,发生 A 的概率。
那朴素贝叶斯公式就可以理解成是在北京下雨的情况下,求堵车的概率。根据过往的统计结果,我们可以得到 P(A)=60%,P(B)=30%,P(B|A)=40%,根据公式:P(A|B)=P(B|A) P(A)/P(B) = 40% * 60% / 30% = 80%。也就是说,在北京下雨的情况下,有 80% 的可能性会堵车。
在实际的应用中,朴素贝叶斯更适用于文本分类、情感分析、垃圾邮件分类这类场景,毕竟这些数据的相互独立性更高。另外,朴素贝叶斯还会和协同过滤一起,使用到推荐系统中。
决策树与随机森林
决策树,决策树生成的过程包括三个部分,分别是特征选择、决策树生成、决策树剪枝。生成不好会增大这棵树

随机森林(Random Forest)指的是由多棵决策树组成,随机指的是每一个决策树的样本是随机从数据集中采样得到的。假设, 模型由三个决策树 A、B、C 组成,我们给每棵决策树都随机抽取样本进行训练,由于这三棵树的训练样本不一样,因此它们最后得到的决策结果有可能不同。最后,我们再把这三棵树得到的结果做一个综合,就能得到最终的决策结果了。
SVN支持向量机
多维空间分类,SVM 是一个有监督的二分类器,目标是找到一个超平面,让两类数据距离这个超平面最远,从而对新的数据分类更准确。

K-means
无监督,聚类

随机定义中心点,聚类,算平均改中心点迭代
K-means 最经典的应用场景就是文本聚类,也就是根据文档内容或主题对文档进行聚类,再有就是对用户进行分类,它们是 K-means 最常用的两个场景。
CNN

总结:当一个人的决策容易犹豫不决的时候,或许也可以'借助'简单的机器学习算法,感受完全理性的决策,这有点像投资,是相信自己的直觉呢还是相信某些量化模型呢,所以只能说借助,有时会决策瘫痪就摆烂选一个决策方案算了。不过话说回来,当前大模型无法解决的一个问题之一是价值函数,就是说不用等到最后人类会有预感能做出某些超前决策,有超前预感的人非常之复杂,结合了他的经验,泛化能力也就是举一反三,个人信念审美智商,是晶体智慧和流体智慧的结合,大模型路漫漫。