著名的物理学家爱德华·特勒曾经引用过:
“A fact is a simple statement that everyone believes. It is innocent unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty until found effective.”
假设检验的应用在数据科学中占主导地位,它是简化和结构的必备之选。就像犯罪小说的故事一样,基于数据的假设检验,将从一个新颖的建议引向一个有效的命题。
假设检验的基本逻辑:全称命题只能被否证而不能被证明。这个道理很简单,个案当然不足以证明一个全称命题,但是却可以否定全称命题。小概率事件在一次事件中基本不可能发生。
所以想要证明的假设作为备择假设,想要拒绝的假设作为原假设。容易被证伪的假设为原假设(所以原假设去等号)。不轻易拒绝的作为原假设,拒绝后无所谓的作为备择假设。拒绝后后果比较小的作为原假设(因为我们保证了一类错误的概率比较小),H0受到了保护。
1. 何为假设检验:
实际生活中,经常需要对某个问题做出判断:
例(订货问题):甲厂向乙厂订购一批产品,合同规定次品率不得超过5%,现随机抽取200件进行检查,发现有9件次品,问甲方是否应接受这批产品?
分析:如果是单纯从表面的抽样结果看,抽样结论是次品率为4.5%,能出厂。但是事实真的如此吗?
争议:乙厂 —— 抽样结论为4.5%,未超过5%,合格。甲厂 —— 抽样结果是随机的,有波动性,可能实际次品率超过5%。
假设:产品不合格 p>=5%。
归纳:根据上述的例子,我们可以简单总结一下假设检验的特点:
都需要对总体提出某个假设;都需要根据采样来对假设进行检验;结论只有“接受”或“拒绝”两种;问题不同,假设不同。
2. 假设的提法
问题:依据什么原理做出决策?
例(Fisher的女士品茶问题):一种饮料由牛奶和茶按照一定比例混合而成,可以先倒茶后倒牛奶(TM)或者反过来(MT)。某女士称,她可以鉴别是TM还是MT。
设计如下试验来确定她的说法是否可信。准备8杯饮料,TM和MT各半,把他们随机的排成一列让女士依次品尝,并告诉她TM和MT各半,然后请她说出哪4杯是MT,假设她全说对了。
Fisher的推断过程:
引进一个假设H:该女士并无鉴别能力
当H成立时,则全部说中的概率为:1/70
因此当女士全部挑对时,只有下列两种情形:
H不成立,即该女士具有鉴别能力;
发生了一个概率为1/70的事件。(小概率事件)
由“实际推断原理”,有理由承认第一种可能性,也就是采样提供了一个显著不利于H的证据。
问题:如果该女士只说对三杯,则情况怎样?
若H成立,则说对三杯以上的概率为:0.243。(认为0.243不算小,不拒绝H)
此时,若拒绝H可能会犯错误。
总结:Fisher的基本思想
有一个明确的假设(H);给定一个所能容忍的犯这类错误的上限;在此上限下,判断证据对拒绝H是否显著;只要证据对拒绝H不显著即接受H。
下面用数学语言描述上述推论。
分析:决策的依据是样本,样本取值有随机性,于是就存在犯错误的可能。
若拒绝原假设,可能会“弃真”,犯第一类错误;若接受原假设,可能会“取伪”,犯第二类错误。
一类风险:犯第一类错误的概率;二类风险:犯二类错误的概率;
直观:二者很难同时达到最小,如何折中?
检验原则一:保护H0。
提出“检验原则一”的原因:
(1)H0的内容很重要,或关乎检验者的利益
例如,订货问题中,H0:产品不合格(p>=5%)?
例如,无罪推断中疑罪从无。
(2)“弃真”的后果大于“取伪”的后果
例如:2013年禽流感期间,一旦出现高烧一般先假定为禽流感患者。
分析:H0和H1的地位不对称!
问题:“保护愿假设”在数学上怎么表示?
分析——保护以下哪种决策状态?
数学描述:P{拒H0|H0真}必须充分小,即P{拒H0|H0真}<=(一类风险)
问题:只管一类风险,不管二类风险。
分析:所以根据这个原则,我们可以知道应该如何提出原假设?
方法:将不应轻易被否定的结论作为原假设!
分析:这种假设方法,严格的控制了第一类风险,如果做出拒绝H1的结论,则结论可靠!如果做出接受H0的结论,则结论未必可靠!
概率反证法:将H0设为与貌似结论相反的结论,这样假设的原因在于,当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。
所以H0一般为一些想要拒绝的事件,比如某人没有出轨,因为我们很难证明他没有出轨,但是我们可以发现他出轨的例子,只要发现了就可以拒绝H0,接受H1,即他出轨了。这时候如果他实际上没有出轨,但是我们拒绝了H0,认为他出轨了,即犯了第一类错误,“冤枉了好人”,但是这种错误比第二类错误(即他实际上出轨了,但是我们却认为他没有出轨)要好。
例:有一批电子元件,要求其使用寿命不得低于1000小时,否则,定为不合格产品,现抽25件,测得平均寿命为950小时,已知该元件的寿命服从N(,),试确定这批元件是否合格(=0.05)
H0 :。
检验原则二:最优检验
控制第一类风险小于的前提下,使检验问题的第二类风险达到最小。
最优检验存在两个问题:
(1)第一类风险很难计算;
(2)实际应用中存在最优检验的情况很少。
3. 关于显著性检验的归纳理解
所以一下讨论的假设检验问题,都是在“检验原则一”下的假设检验问题,即Fisher显著性检验问题:
称为显著性水平,以后常用“在显著性水平下的对H作显著性检验”这类术语。
(1)检验原则决定H1和H1的地位不对等,要注意提出假设的方法;
(2)依“原则一”检验时,同时冒着一类风险和二类风险,但一类风险可控,而二类风险未知;
(3)依“原则一”检验时,得出拒绝H0的结论时可靠性相对高,反之可靠性相对较低!
4. 如何做出决策
做出决策等价于找到拒绝H0对应的事件。
关键:构造一个H0为真时小概率事件,观察该事件在采样中是否发生,若发生则拒绝H0。
步骤1:假设H0为真,构造一个统计量。(例如在女士品茶问题中,统计量就是说对的杯数)
步骤2:根据统计量确定一个事件(等价于给出H0的拒绝域)。要求:H0为真时,这个事件是个小概率事件。
步骤3:进行试验,利用采样数据,判断小概率事件是否发生,若发生则拒绝H0。
问题:(1)如何构造统计量;(2)如何构造事件(拒绝H0)。
例:某厂生产一种铆钉,直径标准为=2厘米,现从该厂生产的铆钉中随机抽取100个,测得直径的平均值为1.978cm,设铆钉的直径服从正态分布,且标准差为0.2cm,问该厂生产的铆钉是否合格?()。
H0 : H1 :
下一步,计算统计量,查正态分布的分位表,观察其值是否落在拒绝域内。
归纳:假设检验的步骤
(1)根据问题,提出原假设与备择假设;
(2)构造检验统计量,其选取与原假设有关;
(3)对于给定的显著水平,确定H0的拒绝域;
(4)抽样,判断样本观察值是否落在拒绝域内。