18个非常重要的公式,请务必转给你身边的人
原创 paperClub paperClub 2022-07-05 23:58 发表于江苏
这18个非常重要的公式,请务必转给你的好朋友。
1. 方差: 组内差异,一般为一维数据
标准差(均方差、均方根差)【总方差】: 反映检测值与样本平均值间的偏差,为有偏估计。
在实际情况中,总体均值很难得到,往往通过抽样来计算,于是有样本方差S(无偏估计)
2. 数学期望E(xi)
数学期望:离散型随机变量 xi 和对应概率的乘积。公式如下:
应用场景
3.协方差:组间差异,描述多维数据
概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
X, Y 协方差为4.0 ,是正相关,从上面的图像我们也可以看到像x,y 变化是一致的。
协方差矩阵:[[2. 4.] [4. 8.]], 既然协方差反映了相关性,那我们怎么衡量呢?皮尔逊相关性, 很简单,用协方差除以标准差即可,就是协方差归一化的过程:
4. 协方差与相关性:
我们都知道协方差 可以用来评判多因素间是否具有一相关性,相关相关性的度量也就是皮尔逊系数,皮尔逊系数:
皮尔逊相关性是两个变量之间的协方差与标准差的商, 那怎么去理解呢?通过公式我们来理解一下,是去中心化后的数学期望标准差的商, 分母非负,我们主要关注分子部分就好了,每个点与组内平均值的差就是归一化的思想,所以我们就是看最后的数学期望对应的向量是不是为正,就可以判断两个变量是不是正相关,为了呈现这个过程,我们来看一个例子,数据如下:
这是一组数据,total_bill代表消费者就餐账单总额,tip为 小费,一般理解,就餐费用越高的消费者会提供更多的小费给服务员,因此账单总额和小费应该是正相关的,我们按照上面的理解来推演一下:
我们看到 xy_mean 的平均值为 8.29 ,是大于0的,根据猜想应该是正相关,而我们计算的皮尔逊相关系数为 1.0,为强正相关,和猜想一致。通过下面的拟合我们可以很清楚地发现,整体上 total_bill 与 tip是正相关的。
当然,我们还可以计算sperman相关性。此外,也可以通过卡方检验等方法来进行相关性验证。
5.标准误:衡量抽样误差,越小代表抽样数据越能反映总体的特征
6. 均方误差(Mean Squared Error,MSE):均方误差是指参数估计值与参数真值之差平方的期望值。
7. 均方根误差(Root Mean square Error, RMSE): MSE的平方根,反映真实值和预测值间的偏差。
8.平均绝对误差(Mean absolute Error, MAE): 真实值与预测值绝对误差的平均值,与标准差相比,MAE离差被绝对值化,不会出现正负相抵消的情况,更好地反映预测值误差的实际情况。
9. 伯努利分布:
伯利分布它是一个单词试验,结果只有0 和 1两种情况,1代表成功、0代表失败,例如:女朋友生气、你打电话‘’安慰‘’,她接电话 vs 不接电话,今天下雨 vs 不下雨, 买彩票中奖 vs 未中奖等都属于两种结果的分布,因此也被称为两点分布,概率图像如下:
(1) 伯努利概率:
伯努利概率分布图
(2)伯努利期望和方差:
(3)条件:伯努利分布为离散分布,结果只有两种0 vs 1, 1代表成功,概率为p,0代表失败,概率为 1 - p。
10.二项分布
n次重复伯努利试验,得到的k次概率分布即为二项分布, 例如:一天内你给女朋友打100次电话,有 k 次她接到电话的概率分布,再如 抛硬币n次,有k 次硬币正面朝上的概率等等。
(1) 概率质量函数:
(2)二项分布期望和方差:
(3)条件:发生次数 n 是固定的,其n次试验间相互独立,每次事件发生的只有两种结果,发生概率不变,即发生成功概率每次都为p。
上图告诉我们:
(1)n=10-p=0.3 , n=10-p=0.5 , n=10-p=0.7: 单次事件概率p越大, 分布越接近对称,图像也越朝向中间
(2)n=10-p=0.3, n=25-p=0.3, n 越大越接近正态分布;
比较常见的例子:车间有10台机器,每台机器的功率为10kw, 已知每台机器工作时,1小时内平均开机时间为12分钟,且开动与否相互独立。因当地供电紧张,供电部门只能提供50kw电力,那么:这10台机器正常工作的概率是多少?另外,在一天8小时内,不能正常工作的时间大约是多少?这个就涉及到了二项分布概率的问题。
11.几何分布:
单次事件发生概率为p, 独立重复试验n 伯努利次,直到第 k 次才成功的概率分布即为几何分布,记为X~GE(p)
(1)几何分布概率质量函数:
我们来绘制概率分布图:
(2)几何分布数学期望及方差:
应用的例子:已知患有某种罕见病的患者在某地区总人数的比例是0.25%,那么:检测出一位患者、至少需要检测25人的概率是多少?为检测一个患有罕见病的概率不小于0.9,至少需要检测多少人?这类问题就属于几何分布。答案:概率0.94、需要检测920人。
以上都是基于伯努利分布衍生的统计学分布,其前提都是离散分布,且每次单事件发生概率恒定,其中:伯努利分布是单次试验的概率分布,二项分布是多次重复伯努利试验得出的概率分布,而几何分布强调的是首次发生。
12.超几何分布
超几何分布是描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(放回),称为超几何分布,记为X~H(N,M,n)。
(1)超级分布概率质量函数:
(2)超几何分布数学期望和方差:
应用例子:箱子里面有10个红球、20个白球,那么:不放回的从中拿去5个球,抽中4次为红球的概率是多少?至少抽到4个红球的概率是多少?等等都属于超几何分布。
13. 泊松分布
泊松分布是指单位时间(或单位面积)内随机事件的平均发生次数,为小概率事件。
(1)泊松分布概率函数:λ称为泊松分布的参数,指的是单位事件或面积内随机事件发生的平均次数。
(2)泊松分布的数学期望和方差:数学期望和方差均为λ。
泊松分布例子:如下是某蛋糕店周一 ~ 周日某型蛋糕的平均销量,那么每周需要‘’备货‘’多少此款蛋糕能最大程度满足需求,同时既不浪费又能充分供应??
我们可以看到周一 ~周日平均日销量为 5,如果按照日平均数5,周一、周四、周日肯定卖不完,周三又不够,那到底该准备多少个蛋糕的原料呢?我们就可以考虑泊松分布。
既然图中是周一到周五的周平均销量,那么就能反映出日销售量,即平均值,我们认为此类蛋糕销售为小概率事件,可以认定每日销售量为 5,利用泊松分布就可以得到:
我们看到 日供应为10时,90%以上的销售日均能被满足。
14.正态分布
正态分布又称高斯分布(Gauss Distribution),X∼N(μ,σ2)。
(1)正态分布概率密度:
(2)正态分布数学期望和方差:期望为 μ, 方差为 σ**2
由上图可知:
(1)正态分布的图像是对称的,其对称轴为μ ,即μ 控制了正态分布图像的位置;
(2)正态分布图像是“高瘦”还是“矮胖”,取决于σ ,σ 越大,图像越“矮胖”
15、卡方分布
卡方分布是指符合标准正态分布的样本总体,每个样本的平方和构成的新随机变量称为卡方分布,记为χ2∼χ2(n)。
(1)卡方分布概率密度函数:
(2)卡方分布的期望和方差:E(X)=n,D(X)=2n
(3)概率分布质量函数:
其对应为卡方检验,卡方x2检验可用于拟合性检验和相关性分布,其核心原理在于根据样本数据估计总体频率和期望频率间是否存在限制性差异。
(4)显著性分析应用例子:某咖啡厅通过统计获得如下一组数据,老板想看看不同的职业和咖啡口感间是否存在限制性差异
咖啡统计
卡方值=138.2050, p值=0.0000, 可知 不同职业和咖啡口感间不独立,存在显著差异。当然,我们从上面的柱状图也可以明显看出,不同职业对咖啡的口感喜爱是不一样的。
再比如,男性、女性对化妆品的统计数据如下,那么:性别和化妆与否是否存在显著差异?也可以使用卡方检验来解释。
16. t-分布:
t-分布又称学生氏分布,常用于根据小样本来估计呈正态分布且方差未知的总体的均值。
(1)t-分布概率质量函数:
(2) t-分布概率图:
t-分布所用的检验方法为t-检验, t-检验分为3种:
(1) 单样本t检验:
单样本检测是指用来确定的样本均值和总体总体均值在统计学上是否存在显著差异。
如: 随机抽取某款汽车的进行尾气检测,数据如下,请问此款汽车尾气是否显著大于 20?
某款汽车随机抽样汽车尾气检测结果
汽车尾气数据分布
很显然是不显著的,t-value=3, p-value=0.0149。
再比如:已知新生儿平均体重 3.31 kg,从某高寒缺氧区域抽取30例新生儿,平均体重3.21kg, 标准差0.5,请问该地区新生儿体重符合正常标准吗?
我们也可以使用单样本t-检验:p =0.07079, 我们可以认定根据现有数据信息,不能确定该地区新生儿体重异常。
(2)配对样本t检验:
配对样本t检验目的是在检验样本差数的均数与0之间的差别的显著性。
比如:某医院研究某款咖啡对成人心肌血流量的研究时,随机抽选12名健康成人进行心肌血流量检测,数据如下,那么,此咖啡对心肌血流量是否有影响?我们就可以使用配对t-检验进行分析了。
心肌血流量数据
心肌血流量数据直方图
t-检验双尾p-value = 0.0032, 有显著差异。
(3) 独立样本t-检验
独立样本t-检验目的是判断两个样本均数所对应的总体均数是否有差别。例如,A 和 B工人同一机床上加工轴承零件的直径数据如下,请问A、B加工产品有显著性差异吗?
A、B 机床加工轴承数据
A、B 加工轴承直径分布
独立样本t-检验 p-value=0.4081>0.05, 我们可以认为两人加工精度无显著差异。
18. F-分布
F分布是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布且位置不可互换的分布,对应的F检测也称为方差比率检验、方差齐性检验。
(1)F分布概率函数:
(2)F分布期望和方差:
(3)F分布概率分布
F检验主要是考察两组数据的稳定性,我们还是以上面A工人和B工人加工零件的例子来尝试。
F-检验 p-value =0.9269, 说明两组数据稳定性无显著性差异,反应了A工人和B工人加工零件的稳定性相当。
以上18个数学公式(分析统计方法)是日常频率极高,也是平时工作、学习备考的需要重点掌握的知识点,欢迎大家转发给身边有需要的朋友。
今天就分享到这里, 我是 paperClub,获取最新内容请微信关注 paperClub。
———————————————————————————————
1. 感谢各位小伙伴的关注, 您的点赞、鼓励和留言,都是我深夜坚持的一份动力,无论褒贬,都是我们行进途中最好的回馈,也都会被认真对待。
2. 我将持续分享各类、好玩且有趣的算法应用及工程和项目,欢迎分享和转发。沟通、学习和交流,请与我联系,虽然平时忙,但留言必回,勿急,感谢理解!
3. 分享内容包括开源项目和自研项目,如在引用或使用时,考虑不周、遗漏引用信息或涉及版权等,请您及时联系。如果您对某些内容感兴趣,我们可以一起讨论、交流和学习。