在机器学习中高斯分布的意义

1、在自然界数据的分布通常是正态分布(如年龄、身高、体重等),所以当我们对数据潜在分布模式不清楚时,这是最好的近似。

2、在ML/AI中,目标通常是使得数据线性可分,甚至意味着将数据投影到更高维空间,找到一个可拟合的超平面(如SVM核,神经网络层,softmax等)。原因是“线性分界通常有助于减少方差variance而且是最简单,自然和可理解的”,同时减少数学/计算的复杂性。同时,当我们聚焦线性可分时,通常可以很好减少异常点、影响点和杠杆点的作用。为啥?因为超平面是对影响点和杠点(异常点)非常敏感。举个例子,在二维空间中,我们有一个预测器predictor(X),和目标值(y),假设X和y是很好的正相关。在这个情形下,假设X是正态分布,y也是正态分布,那么你可以拟合到一条很直的线,相比边界点(异常点,杠杆点),很多点都集中在线的中间,所以这个预测回归线在预测未知数据时,降低方差variance的影响。

用上面例子,理解在n维空间,拟合一个超平面,让数据线性可分,就理解正态分布可以降低方差variance的影响

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。