最小二乘、极大似然、梯度下降有何区别?
最大似然估计:
模型已定,参数未知,需要已知这个概率分布函数
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
例:
假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?而其后的理论支撑是什么呢?,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法:
我假设我抽到黑球的概率为p,那得出30次黑球70次白球这个结果的概率为:P(黑=30)=p^70 *(1-p)^30,现在我想要得出p是多少啊,很简单,使得P(白=70)最大的p就是我要求的结果,接下来求导的的过程就是求极值的过程。
(p^70 *(1-p)^30)max =(ln(p^70 *(1-p)^30))max = 70lnp+30ln(1-p)max
求导: 70/p=30/1-p p=0.7
最小二乘估计:https://blog.csdn.net/ccnt_2012/article/details/81127117
- 线性回归要使用最小二乘作为cost function
https://www.jianshu.com/p/2cbe78387585
最小二乘法以估计值与观测值的差的平方和作为损失函数,极大似然法则是以最大化目标值的似然概率函数为目标函数,从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。
最小二乘法是极大似然估计在概率分布按照正态分布的时候得出的结果