概率和统计
一直以来,没有仔细去区分概率和统计,直到看到了dalao的博客,感叹自己还是弱鸡
概率,已知模型和参数,推数据。
统计,已知数据,推模型和参数。
-- nebulaf91
设有一个函数,其中为实例数据(集),为模型参数
概率函数(probability function):为未知,为已知。表示在现有模型下,对于任意输入x,计算x的出现概率
似然函数(likelihood function):为已知,为未知。表示在不同模型参数下,出现x的概率有多大
最大似然估计(MLE)
对于似然函数(为已知,为未知)
求出在出现x的概率最大的时候,模型的参数
极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。
独立同分布(independent and identically distributed,i.i.d.)在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。
即,如果随机变量 和 独立,是指 的取值不影响 的取值, 的取值也不影响 的取值且随机变量 和 服从同一分布,这意味着 和 具有相同的分布形状和相同的分布参数,对随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。
--搬砖的旺财
说了那么多不如直接来一个例子:
假设一个箱子里📦有未知数量的硬币(一元和五毛),每次从中拿出一枚硬币,记录后放回,再拿出一枚,重复10次。结果7次一元,3次五毛,问一元硬币所占比例多少?
解:
设箱中一元比例为p,则五毛比例为1-p。每次选取的硬币都是随机的,所以服从动力同分布条件(IID),那么似然函数