1,中位数:按从小到大排列好的中间值
2,众数:出现次数最多的那个数
3,方差:数值和均值的距离的平方数的平均值
4,协方差:在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。
协方差为0的两个随机变量称为是不相关的。
5,算术平均数
算术平均数分为两种简单算术平均数和加权算术平均数
1,简单算术平均
适用:主要用于未分组的原始数据。设一组数据为X1,X2,...,Xn,简单的算术平均数的计算公式为:
2 加权算术平均
适用:主要用于处理经分组整理的数据。设原始数据为被分成K组,各组的组中的值为X1,X2,...,Xk,各组的频数分别为f1,f2,...,fk,加权算术平均数的计算公式为:
6,几何平均数
几何平均数是n个变量值连乘积的n次方根
1、简单几何平均数:
几何平均数示意图
2、加权几何平均数:
1、几何平均数受极端值的影响较算术平均数小;
2、如果变量值有负值,计算出的几何平均数就会成为负数或虚数;
3、它仅适用于具有等比或近似等比关系的数据;
4、几何平均数的对数是各变量值对数的算术平均数。
计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是: [4]
1、对比率、指数等进行平均;
2、计算平均发展速度;
其中:样本数据非负,主要用于对数正态分布。
3、复利下的平均年利率;
4、连续作业的车间求产品的平均合格率。
7,分位值:分位值是随机变量的特征数之一。将随机变量分布曲线与X轴包围的面积作n等分,得n—1个值(X_1、X_2……X_(n-1)),这些值称为n分位值。参数统计中常常用到分位值这一概念。
分位值(数)在统计学中也有很多应用,比如在一般的数据分析当中,需要我们计算25分位(下四分位),50分位(中位),75分位(上四分位)值。下面介绍一个例子具体说明什么是分位值:
8,期望:在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和
9.双峰数据:双峰分布(bimodal
distribution)是分布中的两个分数附近集中着较多的次数,以致次数分布曲线有两个隆起的峰,故名双峰分布。
10长尾效应:长尾效应的根本就是强调“个性化”,“客户力量”和“小利润大市场”,也就是要赚很少的钱,但是要赚很多人的钱。要将市场细分到很细很小的时候,然后就会发现这些细小市场的累计会带来明显的长尾的效应。
11,条件概率:P(A|B)=P(AηB)/P(B)
12 贝叶斯定理:P(A|B)=P(A)*P(B|A) / [(P(A)* P(B|A)+P(A’)*P(B|A’))
在需要求出条件概率,且该条件概率与已知条件概率顺序相反时使用
13线性变换E(AX+B)=AE(X)+B VAR(AX+B)=A²var(x)
独立观察值E(X1+X2+…..+Xn)=nE(X) VAR(X1+X2+…..+Xn)=NVAR(X)
14 排列;从N个对象里取出R个对象的排列方法P=N!/(N-R)!
组合从N个对象中选取R个对象的选取方式的数目,
15 几何分布 X ~ GE(p)
进行一系列独立的实验,每一次都有可能成功,也有可能失败,成功的概率一样,感兴趣的是第一次成功的概率
Var(x)=q/p²
16 二项分布 X~B(n,p)
你正在进行一系列独立实验,每一次都存在成功和失败的可能,每一次实验的成功概率相同,实验次数有限
P=C(n,k)×p^k×(1-p)^(n-k)。C(n,k)表示组合数
当N大于50且P小于0.1的时候,二项分布可以用泊松分布代替
当np 和nq都大于5的时候,正太分布可以代替二项分布,但是要进行连续性修正X~N(np npq)
17泊松分布 X~PO(χ)
单独事件在给定区间内随机,独立发生。
已知该区间内事件发生的平均数,且为有限值,该事件平均发生次数用χ表示
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。
泊松分布适合于描述单位时间内随机事件发生的次数。
E(X)=χ
VAR(X)=χ
当χ大于15的时候可以用正太分布代替泊松分布X~N(χ, χ)需要进行连续性修正
18 正态分布
(3) E(X1+X2+X3+….+Xn)=nE(x) VAR(X)=nvar(x)
X1+X2+X3+….Xn~N(nE(x),nvar(x)²)
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
19 抽取样本
简单随机抽样的两种方式 重复抽样和不重复抽样,前者是抽样完了又把样本放回总体,后者不放
可以用抽签和随机编号进行简单随机抽样
分层抽样:将总体分割为及格相似的组,每个组具有类似的特征。这些特征或者组叫做层。比如按照颜色分层
整群抽样 ; 进行整群抽样的时候,不是对抽样的单位进行随机抽样,而是对群进行简单随机抽样。整群抽样之所以行得通是因为群体之间的相似性。(比如对一盒糖进行抽样,而不是一颗糖)
系统抽样,按照某种顺序列出整体名单,然后每隔K个单位进行抽样。如果总体存在某种循环,则样本会发生偏倚
20点估计量:样本均值被称作为整体均值的点估计量,样本比例被称为总体比例的点估计量
点估计量是有价值的,但是不能够百分百代表总体,会有小小的误差。与其给出一个精确值作为总体均值的估计值,不如指定一个区间。
S 样本方差公式
总体方差公式
大部分情况下都用样本方差估算总体方差,除以n-1比除以N 能得出精确性稍微高点的结果
21 比例抽样分布如果从总体中用相同的方法抽取许多大小相同但是存在差异的样本,然后用每个样本的某个属性形成一个分布,则所得结果成为抽样分布。用每个样本的比例形成的抽样分布就是比例的抽样分布
利用比例抽样分布可以求出某一个随机选择的,大小为n 的样本的成功比例的概率
E(ps)=p var(ps)=pq/n ps=成功样本/总共样本
当样本大于30的时候Ps分布符合正态分布Ps~N(p pq/n)
Ps需要进行连续性修正=+-(1)/2n
22 均值抽样分布
E(x)=u
Var(x)= ό²/n
中心极限定理: 如果从一个非正态的样本总体X中取出样本,且样本很大,则X的平均值近似为正态分布,如果总体的均值和方差为u和ό²。则
X~N(u ό²/n)
如果有一个总体用二项分布X~B(n p)表示,其中n大于30,如前所诉u=np
ό²=npq 根据极限中心定理,X平均值~n(u, ό²/n)得到
X平均值~n(np, pq)
如果有一个总体用泊松分布X~Po(χ χ)表示,其中n大于30,如前所诉u=np
ό²=npq 根据极限中心定理,X平均值~n(u, ό²/n)得到
X平均值~n(χ χ/n)
使用中心极限定理求出的概率和样本均值有关,而与样本数值无关,因此不需要进行任何连续性修正
23 置信区间:置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”
置信水平:表明你希望“置信区间包含总统计量”这一说法有多大把握。
置信水平是“统计量处于置信区间之中“的概率,通常是百分数,比如95%.置信区间则给出了区间本身——数字范围的上下限
置信区间理论上要连续修正,但是实践中通常忽略不计。
24 当样本很小,或者方差不知道的时候我们采用T分布,T分布只有一个参数就是自由度,v,通常V=n-1
我们要求出样本平均值分布,就要知道样本平均值的期望和方差,样本平均值的期望为u,标准差为ό**2/n,由于需要s估计ό的值,T分布的算式如下
T=(样本的平均值-u)/(s/n**0.5)
25两种估计总体统计量的方法
一是点估计量,点估计量方法可以用于估计总体统计量的精确数值,是根据样本数据有可能做出的最好猜测
二是总体统计量的置信区间,这个方法得到的并不是总体统计量的精确估计,而是求出总体统计量的有一个较高可信度的范围
26假设检验也被成为显著性检验
1确定要进行检验的假设;
2选择检验统计量;
3确定用于做决策的拒绝域
4求出检验统计量的P值;
5查看样本结果是否位于拒绝域内
6做出决策。
临界点:拒绝域的临界点C
显著性水平用α表示,你希望在不可能程度多大的时候拒绝你的假设
单尾检验:当拒绝域落在可能数据集的一侧。当<的时候用左尾,当>的时候用右尾。
双尾检验:拒绝域一分为二位于数据左右两侧,选择的检验水平为α,将拒绝域一分为二分别位于数据集的两端。当出现<>d的时候用双尾检验
第一类错误:错误地拒绝了真原假设
第二类错误:错误的接受了假原假设
P(第一类错误)=α α为检验的显著性水平
P(第二类错误)=β
求β的方法(1)检查是否拥有H1(备选假设)的特定数值,如果没有就没有办法计算第二类错误概率。(2)求检验域以外的数值范围 (3)假定H1为真,得到这些数值的概率。
功效:在H0为假的时候拒绝H0的概率 功效=1-β
27卡方分布
通过检验统计量来比较期望结果和实际结果之间的差别,然后得出观察频数极值的发生概率。
X²=£(o-E)/E
O表示观察频数,E表示期望频数
X²说明差别越明显
卡方分布的主要用途 第一 检验拟合优度,也就是检验一组给定的数据与指定分布的吻合程度。例如,可以用来检验老虎机收益的观察频率与我们所期待的分布的吻合程度
第二 检验两个变量之间的独立性,通过这个方法可以检验两个变量之间是否存在某种关联。
V表示自由度数目
v=组数-限制数
当v等于1和2的时候,X²分布比较向J线高后低。当V大于2的时候图形先低后高然后再低,V越大,越接近正态分布
用卡方分布进行的检验是单尾检验,右尾是拒绝域
如果用显著性水平α进行检验,则可以写作
χ²α(v)可以通过查χ²概率表可以求出χ。第一列求v,第一行查α,交点就是χ值。
首先,你得到了老虎机的一组观察频数,然后假定这些频数符合某种特定的概率分布并算出来期望,然后算出自由度和检验统计量χ²,通过χ²可以看出观察频数和期望频数之间的总偏差
然后从χ²概率表中查找显著性水平为x%时的拒绝域,经过检验统计量进行比较,看总偏差是否位于拒绝域以内。
这种假设检验被叫做拟合优度检验,它检验观察频数是否和假设的频数分布相吻合。若你有一组数据,并希望这组数据符合某种分布,为了看这组数据是否确实符合这种分布,则可以用拟合优度检验。
χ²拟合优度检验对相当多的概率分布都有效,只要得到了一组观察频数,并且能够算出期望频数。
χ²进行独立性检验
期望频数=(行合计*列合计)/ 总和
X²=£(o-E)/E
如果有一张H*K的表格,则可以通过V=(h-1)*(k-1)来计算自由度。表格里面不包含总计
28相关和线性
两个变量之间的相关关系意味着二者存在某种数学关系。既我们在图上绘制数值时,我们能够看得出某种模式,并能够预测出没有出现在图上的数值。我们并不知道两个变量之间是否存在实际关系,当然我们也不知道一个变量是否会影响另一个变量。或是有其它因素在发挥作用。
B=£((x-x的平均值)(y-y的平均值))/£(X-X的平均值)²
B=每一个X减去X的平均值乘以每一个Y减去Y的平均值除以(每个数X减去X的均值,然后将所得结果平方
直线一定会经过(X均值,Y均值)这个点,所以可以求出a
直线Y=bx+a被成为回归线 用于求出最佳拟合线的方法叫做最小二乘回归法
有一种方法可以计算直线拟合度——称为相关系数r
相关系数位于-1和1之间。如果r是-1数据是完全负线性相关,r为1则数据完全正线性相关。R=0则不相关。R的绝对值越接近1,则相关性越高。
R=bSx/Sy
B是以求出的最佳拟合线概率 Sx 是样本中X值的标准差Sy是y值的标准差。在计算X和Y的方差和标准差的时候都是除以n-1.