本节目标 :
一.概率论与统计推断的关系
二.总体与样本
总体:样本:
三.直方图与箱线图(机器学习的数据探索部分会用上)
频率直方图可以反映数据的概率密度函数:
四分位数:
箱线图:中心位置是M
散步程度:因为数据量一定,越窄的面积越小,数据也就越集中
箱线图的重要作用 : 检测异常点
红短线部分是疑似异常点:异常点上面的黑短线是Q1-1.5IQR
上面长方形中的红线是M
箱线图还适合检测比较两个或两个以上数据集的性质
从下图两个箱线图可得知:男教师的中位数比女教师的高(因为黄长方形的中心位置比橙长方形的中心位置高)
同时可以看出男教师的得分比较分散,没有女教师的集中
看右边的直方图是看不出来的
四.极大似然估计
1.似然函数
离散型 :连续型:
两者的区别只是使用的函数不同
2.极大似然估计
频率学派的观点,认为有上帝在制造这些数据时参数是固定的,我们要考虑的就是每个值最有可能是这些参数值
局限性 : 只看重事实结果,在样本容量不大的时候得到的结果往往并不可靠
五.最大后验公式
贝叶斯学派的观点,认为并没有上帝视角,要确定这些数据是由固定参数制造出来的,因此我们关心每个参数的可能取值,给这些值一些自己认为合理的假设值(就是先验分布函数)
局限性 : 先验分布是个非常主观的判断,无法解释取什么分布函数比较合适
10次抛硬币问题:函数取最大值时相比最大似然估计,最大后验估计往左移(是受到先验分布函数的影响)
要消除两种估计的分歧 : 增加试验的次数
案例: