机器学习算法

image.png

KNN K邻近

KNN 的原理就是，对于一个犹豫不决的选择，我们先参考周围最近的一些已经做出的选择，然后再做出相似的决定，你也可以记成：“近朱者赤，近墨者黑”。
总的来说，当 K 越小的时候，模型就越容易过拟合，因为预测结果与最近一个样本点强相关。而 K 越大的时候，就越容易欠拟合，因为预测结果要考虑所有样本的情况，就相当于没有预测。所以，对于 K 的取值，一种有效的办法就是从 1 开始不断地尝试，并对比准确率，然后选取效果最好的那个 K 值。

线性回归

设定函数，预测结果，多元回归方程

image.png

逻辑回归

解决分类问题，答案是 “是和否”

image.png

朴素贝叶斯

贝叶斯：没有绝对的对错，只有不断迭代的信念。
朴素贝叶斯假设相互独立

image.png

P(A)：堵车的概率，也就是事件 A 发生的概率；
P(B)：下雨的概率，也就是事件 B 发生的概率；
P(B|A)：在堵车的情况下，北京下雨的概率，也就是在 A 的情况下，发生 B 的概率；
P(A|B)：在北京下雨的情况下，堵车的概率，也就是在 B 的情况下，发生 A 的概率。
那朴素贝叶斯公式就可以理解成是在北京下雨的情况下，求堵车的概率。根据过往的统计结果，我们可以得到 P(A)=60%，P(B)=30%，P(B|A)=40%，根据公式：P(A|B)=P(B|A) P(A)/P(B) = 40% * 60% / 30% = 80%。也就是说，在北京下雨的情况下，有 80% 的可能性会堵车。
在实际的应用中，朴素贝叶斯更适用于文本分类、情感分析、垃圾邮件分类这类场景，毕竟这些数据的相互独立性更高。另外，朴素贝叶斯还会和协同过滤一起，使用到推荐系统中。

决策树与随机森林

决策树，决策树生成的过程包括三个部分，分别是特征选择、决策树生成、决策树剪枝。生成不好会增大这棵树

image.png

随机森林（Random Forest）指的是由多棵决策树组成，随机指的是每一个决策树的样本是随机从数据集中采样得到的。假设，模型由三个决策树 A、B、C 组成，我们给每棵决策树都随机抽取样本进行训练，由于这三棵树的训练样本不一样，因此它们最后得到的决策结果有可能不同。最后，我们再把这三棵树得到的结果做一个综合，就能得到最终的决策结果了。

SVN支持向量机

多维空间分类，SVM 是一个有监督的二分类器，目标是找到一个超平面，让两类数据距离这个超平面最远，从而对新的数据分类更准确。

image.png

K-means

无监督，聚类

image.png

随机定义中心点，聚类，算平均改中心点迭代
K-means 最经典的应用场景就是文本聚类，也就是根据文档内容或主题对文档进行聚类，再有就是对用户进行分类，它们是 K-means 最常用的两个场景。

CNN

image.png

总结：当一个人的决策容易犹豫不决的时候，或许也可以'借助'简单的机器学习算法，感受完全理性的决策，这有点像投资，是相信自己的直觉呢还是相信某些量化模型呢，所以只能说借助，有时会决策瘫痪就摆烂选一个决策方案算了。不过话说回来，当前大模型无法解决的一个问题之一是价值函数，就是说不用等到最后人类会有预感能做出某些超前决策，有超前预感的人非常之复杂，结合了他的经验，泛化能力也就是举一反三，个人信念审美智商，是晶体智慧和流体智慧的结合，大模型路漫漫。