【数学建模算法】(30)数据的统计描述和分析(下)

2.参数估计

利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是X \sim N\left(\mu, \sigma^{2}\right),估计有关的参数,如\mu, \sigma^{2}。参数估计分点估计和区间估计两种。

2.1.点估计

点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、最小方差性、有效性等,估计的方法有矩法、极大似然法等。

最常用的是对总体均值\mu和方差\sigma^{2}(或标准差\sigma)做点估计。如果抛开一切数学观点,从纯直接的角度看,一组自然、合理的点估计显然是(在字母上加\hat{ }表示它的估计值)

\hat{\mu}=\overline{x}, \hat{\sigma}^{2}=s^{2}, \hat{\sigma}=s

2.2.区间估计

点估计虽然给出了待估参数的一个数值,却没有告诉我们这个估计值的精度和可信程度。一般地,总体的待估参数记作\theta(如\mu, \sigma^{2}),由样本算出的\theta 的估计量记作\hat{\theta},人们常希望给出一个区间\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right],使\theta 以一定的概率落在此区间内。若有:
P\left\{\hat{\theta}_{1}<\theta<\hat{\theta}_{2}\right\}=1-\alpha, 0<\alpha<1
\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right]称为\theta的置信区间,\hat{\theta}_{1}, \hat{\theta}_{2}分别称为置信下限和置信上限,1-\alpha称为置信概率或置信水平,\alpha 称为显著性水平。

给出的置信水平为1-\alpha的置信区间\left[\hat{\theta}_{1}, \hat{\theta}_{2}\right],称为\theta 的区间估计。置信区间越小,估计的精度越高;置信水平越大,估计的可信程度越高。但是这两个指标显然是矛盾的,通常是在一定的置信水平下使置信区间尽量小。通俗地说,区间估计给出了点估计的误差范围。

2.3.参数估计的Matlab实现

Matlab 统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。对于正态总体,命令是:

[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中 x 为样本(数组或矩阵),alpha 为显著性水平\alpha (alpha 缺省时设定为 0.05),返回总体均值\mu和标准差\sigma 的点估计 mu 和 sigma,及总体均值\mu和标准差\sigma 的区间估计muci 和 sigmaci。当 x 为矩阵时,x 的每一列作为一个样本。

Matlab 统计工具箱中还提供了一些具有特定分布总体的区间估计的命令,如expfit,poissfit,gamfit,你可以从这些字头猜出它们用于哪个分布,具体用法参见帮助系统。

3.假设检验

统计推断的另一类重要问题是假设检验问题。在总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。例如,提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于\mu_{0}的假设等。假设检验就是根据样本对所提出的假设做出判断:是接受还是拒绝。这就是所谓的假设检验问题。

3.1.单个总体N\left(\mu, \sigma^{2}\right)均值\mu的检验

假设检验的种类:
双边检验:H_{0} : \mu=\mu_{0}, \quad H_{1} : \mu \neq \mu_{0}
右边检验:H_{0} : \mu \leq \mu_{0}, \quad H_{1} : \mu>\mu_{0}
左边检验:H_{0} : \mu \geq \mu_{0}, \quad H_{1} : \mu<\mu_{0}

3.1.1.\sigma^{2}已知,关于\mu 的检验( Z 检验)

在 Matlab 中 Z 检验法由函数 ztest 来实现,命令为:

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

其中输入参数 x 是样本,mu 是H_{0}中的\mu_{0},sigma是总体标准差sigma, alpha 是显著性水平\alpha (alpha 缺省时设定为 0.05),tail 是对备选假设H_{1}的选择:H_{1}\mu \neq \mu_{0}时用tail=0(可缺省);H_{1}\mu>\mu_{0}时用tail=1;H_{1}\mu<\mu_{0}时用tail=-1。输出参数h=0表示接受H_{0},h=1表示拒绝H_{0},p表示在假设H_{0}下样本均值出现的概率,p越小H_{0}越值得怀疑,ci是\mu_{0}的置信区间。

例3 某车间用一台包装机包装糖果。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为 0.5 公斤,标准差为 0.015 公斤。某日开工后为检验包装机是否正常,随机地抽取它所包装的糖 9 袋,称得净重为(公斤):
0.497 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512
问机器是否正常?

解:总体\sigma已知,x \sim N\left(\mu, 0.015^{2}\right)\mu未知。于是提出假设H_{0} : \mu=\mu_{0}=0.5H_{1} : \mu \neq 0.5
Matlab实现如下:

x=[0.497 0.506 0.518 0.524 0.498...
0.511 0.520 0.515 0.512];
[h,p,ci]=ztest(x,0.5,0.015)

求得h=1, \quad p=0.0248,说明在 0.05 的水平下,可拒绝原假设,即认为这天包装机工作不正常。

3.1.2.\sigma^{2}未知,关于\mu 的检验(t检验)

在 Matlab 中 t 检验法由函数 ttest 来实现,命令为:

[h,p,ci]=ttest(x,mu,alpha,tail)

例4 某种电子元件的寿命x(以小时计)服从正态分布,\mu, \sigma^{2}均未知.现得 16 只元件的寿命如下:
159 280 101 212 224 379 179 264
222 362 168 250 149 260 485 170
问是否有理由认为元件的平均寿命大于225(小时)?

解:按题意需检验
H_{0} : \mu \leq \mu_{0}=225, \quad H_{1} : \mu>225
\alpha=0.05。Matlab 实现如下:

x=[159 280 101 212 224 379 179 264 ...
222 362 168 250 149 260 485 170];
[h,p,ci]=ttest(x,225,0.05,1)

求得\mathrm{h}=0, \quad \mathrm{p}=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为元件的平均寿命不大于 225 小时。

3.2.两个正态总体均值差的检验(t检验)

还可以用 t 检验法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中由函数 ttest2 实现,命令为:

[h,p,ci]=ttest2(x,y,alpha,tail)

与上面的 ttest 相比,不同处只在于输入的是两个样本 x,y(长度不一定相同),而不是一个样本和它的总体均值;tail 的用法与 ttest 相似,可参看帮助系统。

例5 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了 10 炉,其得率分别为:

标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3
新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1

设这两个样本相互独立且分别来自正态总体N\left(\mu_{1}, \sigma^{2}\right)N\left(\mu_{2}, \sigma^{2}\right)\mu_{1}, \mu_{2}, \sigma^{2}均未知,问建议的新方法能否提高得率?(取\alpha=0.05。)
(1)需要假设检验
H_{0} : \mu_{1}-\mu_{2} \geq 0, \quad H_{1} : \mu_{1}-\mu_{2}<0
(2)Matlab实现

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3];
y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1];
[h,p,ci]=ttest2(x,y,0.05,-1)

求得:
h=1, p=2.2126 \times 10^{-4}。表明在\alpha=0.05的显著水平下,可以拒绝原假设,即认为建议的新操作方法较原方法优。
注:ttest2 既可以做方差相等的,又可以做方差不相等的假设检验,使用格式为:

h = ttest2(x,y,alpha,tail, 'unequal' )

3.3.分布拟合检验——\chi^{2}检验法

假设为:

H_{0}:总体 x 的分布函数为F(x)
H_{1}:总体x的分布函数不是F(x)

在用下述\chi^{2}检验法检验假设H_{0}时,若在假设H_{0}F(x)的形式已知,但其参数值未知,这时需要先用极大似然估计法估计参数,然后作检验。
\chi^{2}检验法的基本思想如下:将随机试验可能结果的全体\Omega分为k个互不相容的事件:
A_{1}, A_{2}, A_{3}, \ldots, A_{k} \quad\left(\sum_{i=1}^{k} A_{k}=\Omega, A_{i} A_{j}=\Phi, i \neq j, i, j=1,2, \cdots, k\right)。于是在假设H_{0}下,我们可以计算p_{i}=P\left(A_{i}\right)(或\hat{p}_{i}=\hat{P}\left(A_{i}\right)),i=1,2, \cdots, k。在n次实验中,事件A_{i}出现的频率f_{i} / np_{i}\left(\hat{p}_{i}\right)往往有差异,但一般来说,若H_{0}为真,且试验的次数又甚多时,则这种差异不应该很大。基于这种想法,皮尔逊使用:
\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-n p_{i}\right)^{2}}{n p_{i}}\chi^{2}=\sum_{i=1}^{k} \frac{\left(f_{i}-n \hat{p}_{i}\right)^{2}}{n \hat{p}_{i}}
作为假设检验H_{0}的统计量。并证明了以下定理:

定理:若n充分大,则当H_{0}为真时(不论H_{0}中的分布属什么分布),上述统计量总是服从于自由度为k-r-1\chi^{2}分布,其中r是被估计的参数的个数。

于是,若在假设H_{0}下算得\chi^{2}统计量有:
\chi^{2} \geq \chi_{a}^{2}(k-r-1)
则在显著性水平\alpha下拒绝H_{0},否则就接受。

注意:使用\chi^{2}检验法时,要求样本容量n不小于50,以及每个n p_{i}都不小于 5,而且n p_{i}最好是在 5 以上。否则应适当地合并A_{i},以满足这个要求。

例6 下面列出了84 个伊特拉斯坎人男子的头颅的最大宽度(mm),试检验这些数据是否来自正态总体(取\alpha=0.1)。
141 148 132 138 154 142 150 146 155 158
150 140 147 148 144 150 149 145 149 158
143 141 144 144 126 140 144 142 141 140
145 135 147 146 141 136 140 146 142 137
148 154 137 139 143 140 131 143 141 149
148 135 148 152 143 144 141 143 147 146
150 132 142 142 143 153 149 146 149 138
142 149 142 137 134 144 146 147 140 142
140 137 152 145

编写Matlab程序:

clc
x=[141 148 132 138 154 142 150 146 155 158 ...
150 140 147 148 144 150 149 145 149 158 ...
143 141 144 144 126 140 144 142 141 140 ...
145 135 147 146 141 136 140 146 142 137 ...
148 154 137 139 143 140 131 143 141 149 ...
148 135 148 152 143 144 141 143 147 146 ...
150 132 142 142 143 153 149 146 149 138 ...
142 149 142 137 134 144 146 147 140 142 ...
140 137 152 145];
mm=minmax(x) %求数据中的最小数和最大数
hist(x,8) %画直方图
fi=[length(find(x<135)),...
    length(find(x>=135&x<138)),...
    length(find(x>=138&x<142)),...
    length(find(x>=142&x<146)),...
    length(find(x>=146&x<150)),...
    length(find(x>=150&x<154)),...
    length(find(x>=154))] %各区间上出现的频数
mu=mean(x),sigma=std(x) %均值和标准差
fendian=[135,138,142,146,150,154] %区间的分点
p0=normcdf(fendian,mu,sigma) %分点处分布函数的值
p1=diff(p0) %中间各区间的概率
p=[p0(1),p1,1-p0(6)] %所有区间的概率
chi=(fi-84*p).^2./(84*p)
chisum=sum(chi) %皮尔逊统计量的值
x_a=chi2inv(0.9,4) %chi2分布的0.9分位数

得皮尔逊统计量chisum=2.2654,\chi_{0.1}^{2}(7-2-1)=\chi_{0.1}^{2}(4)=7.7794故在水平0.1下接受H_{0},,即认为数据来自正态分布总体。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容