《数理统计学简史》笔记与摘要


一、早期概率论

“古典概率适用的一个典型场合,就是以掷骰子为代表的机遇性赌博。”骰子作为赌博工具由来已久,早在960年,大主教怀特尔德就计算出掷三个骰子时会出现56种组合数。到16世纪,开始有意大利数学家研究掷骰子过程中出现的机遇问题,其中有记载的一位是卡丹诺(G.Cardano,1501-1576)。卡丹诺因发现了一般的三次代数方程解法而在数学上知名,他同时著有《机遇博弈》(The Book of Games of Chance)(成书约1564年,1663年发表),故现在一般也把古典概率的发明归于他的名下。

《机遇博弈》主要是关于赌博的个人见解:“如什么时候宜于赌博,如何判断赌博是否公正,如何识别和防止赌博中的欺诈... ...”“他明确指出骰子应为‘诚实的’,意指6面中各面都有同等机会出现。他广为应用了如下结果:多个诚实的骰子投掷结果有同等机会,并明确定义胜率是有利结果数与不利结果数之比。”他还给出了一些排列组合问题的答案:比如投掷3颗不同骰子所得的结果总数216种,组合公式C^n_k=\frac{n(n-1)...(n-k+1)}{k!}

卡丹诺在1539年提到了著名的“分赌本问题”的一种解法。分赌本问题最早见于1494年帕西奥利的一本著作(讨论了S=6、S_1=5、S_2=2的特殊情况),问题大概可以如此描述:“A、B两人赌博,各出注金a元。每局各人获胜概率都是1/2,约定:谁先胜S局,即赢得全部注金2a元。现进行到A胜S_1局、B胜S_2局(S_1和S_2都小于S)时赌博因故停止,问此时注金2a应如何分配给A和B,才算公平?”关键是如何才叫作“公平”,卡丹诺认为记r_i=S-S_i,则注金可以按r_2(r_2+1):r_1(r_1+1)分给A和B。这个解法如今看来是不正确的,但他注意到了S_1和S_2与S的差距要比S_1、S_2本身重要。正确的解由巴斯葛(B.Pascal,1623-1662)于1654年提出,他用递推公式和巴斯葛三角(杨辉三角)计算出A、B分别取胜概率p_A=\sum^{r_2-1}_{i=0}C^r_i 2^{-r}、p_B=1-p_A(其中r=r_1+r_2-1)。

巴斯葛还与费尔马(P.de Fermat,1601-1665,就是费马大定理那位)就赌博的具体问题通信讨论,“他们广泛使用组合工具和递推公式,初等概率一些基本规律也都用上了。他们引进了赌博的值的概念,值等于赌注乘以获胜概率。”不过这些通信并没有提出概率运算的原则性的东西,“他们视为当然地使用了概率加法和乘法定理,但未将其作为一般原则凸现出来。”惠更斯于1657年发表了著名的《机遇的规律》,将赌博的“值”的概念改为“期望”,该书被作为标准教本长达50年。他从公平赌博(fair game)的值的一条公理出发,推出“期望”的3条定理,并利用这些定理和递推法解决一些机遇博弈问题。其中第三条定理如下,这实际上已经和现代教科书的离散随机变量期望的定义完全一致了:“若某人在赌博中以概率p,q(p+q=1)得a、b元,则期望为pa+qb元。”

“把概率论由局限于对赌博机遇的讨论拓展出去的转折点和标志,应是1713年伯努利(Jakob Bernoulli,1654-1705)划时代著作《推测术》的出版”。这本书的出版可以认为是标志着概率概念形成过程的结束与数学概率论的开端,它的主要贡献如下:1.提出了伯努利概型、2.“他明确提出了独立情况下概率乘法定理的表述形式,在此基础上严格证明了二项概率公式C^n_ip^iq^{n-i}”、3.“他开创了通过无穷级数求和去计算概率的方法”、4.首次引入了“排列”的概念、5.伯努利大数定律的发现。

《推测术》最重要的贡献是伯努利大数定律:假设在缶子里装有大小相同、质地一样的a个白球、b个黑球,随机从缶子中抽一个球,理论上抽到白球的概率是p=\frac{a}{a+b}。我们可以通过有放回地从缶子中抽球N次,记抽到的白球次数为X,以\frac{X}{N}来估计p。伯努利企图证明的是,用\frac{X}{N}来估计p可以达到“道德确定性”,即:“任意给定两个数\epsilon>0\eta>0,总可以取足够大的抽取次数N,使事件\{|\frac{X}{N}-p|>\epsilon\}的概率不超过\eta。这种方法在现代的数学分析中经常用到,意味着只要抽取的次数足够多,\frac{X}{N}可以在任意程度上逼近p,两者间的误差也最终达到可接受的范围。(伯努利的证法是在指定\epsilon=\frac{1}{a+b}p=\frac{a}{a+b}的前提下)对任意的c>0,如要证P(|\frac{X}{N}-p|>\epsilon),只需证<img class=,只需证P(Np<X\le Np+N\epsilon)>cP(Np+N\epsilon和<img class=。对于P(Np<X\le Np+N\epsilon)>cP(Np+N\epsilon,设<img class=,只要N足够大,就有A_0>c(A_1+A_2+...),所以P(Np<X\le Np+N\epsilon)>cP(Np+N\epsilon得证,<img class=同理。值得注意的是\lim_{N \to \infty}\frac{X}{N}=p与伯努利要证明的不一样,两者的差别在于“因为原则上不能排除‘每次抽到白球’的可能性,这时\frac{X}{N}总为1,不能收敛于p<1.”,该式直到1909年才被波莱尔证明,被称为强大数定律,而伯努利的被称为弱大数定律。

此外,伯努利提出了对概率的几点看法。1.客观概率分为两类,一类是“可以先验地计算”的古典概率(依据建立在对称性上,如摸球游戏),另一类是“后验地计算”的统计概率(通过大量观察来计算,如统计出生男婴)(注意这里的“先验”含义与贝叶斯主义的不一样);2.机械决定论的世界观,一切事物受到严格因果律的支配,随机性的产生源于我们没有把所有有关条件弄清楚;3.概率接近1的事件具有“道德确定性”(现称为“事实上的确定性”practical certainty),例如指定一个很小的数\alpha>0,若某事件发生概率小于\alpha,则可将其视为“一次实验中‘道德确定地’不可能发生”(现称为“小概率事件原理”);4.将“等可能性”推广到主观概率,“如果没有任何理由可以认为众多可能性中的某一个或某一些比其他可能性更具优势时,应给予这些可能性以同等的主观概率。”(现称为“同等无知原理”)

二、狄莫弗的二项概率逼近

狄莫弗(Abraham De Moivre,1667-1754)的一个广为人知的成果是(cos\theta+isin\theta)^n=cosn\theta+isinn\theta,1718年他出版了《机遇论》(Doctrine of Chances),其中最大的贡献是二项概率。他研究该问题的动机是1721年被人提问:A、B二人在甲家赌博,每局A获胜概率为p,B获胜概率为q=1-p。赌N局,记A胜局数为X。约定若X\ge Np时,A付给甲X-Np元;若X<Np时,B付给甲(N-X)-Nq=Np-X元。问甲所得的期望值为多少?现在我们可以很容易知道,甲的期望值为D_N=E(|X-Np|)=\sum^N_{i=1}|i-Np|b(N,p,i)(其中b(N,p,i)为C^N_ip^i(1-p)^{N-i}),记b(i)=b(2m,\frac{1}{2},i),狄莫弗当时只对p=\frac{1}{2}的特例进行计算,得到了一个近似但复杂的结果。但当N较大时,b(N,p,i)不易计算,因此狄莫弗想要找到一个方便计算的近似公式。

他和斯特灵(James Stirling,1692-1770)就此问题进行了交流,斯特灵得到了b^2(m)=\frac{2}{\pi(2m+1)}(1+\frac{1}{4(m+\frac{3}{2})}+\frac{9}{32(m+\frac{3}{2})(m+\frac{5}{2})}+...),b^{-2}(m)=\pi m(1+\frac{1}{4(m+1)}+\frac{9}{32(m+1)(m+2)}+...),当取主项1时,有b(m)\sim \sqrt{\frac{2}{\pi N}}(\sim意为当N\to\infty,两者比值为1);狄莫弗发现,由于b(m)=\frac{1\cdot3\cdot5\cdot...\cdot(2m-1)}{2\cdot4\cdot\cdot6\cdot...\cdot2m},值\sqrt{\frac{2}{\pi N}}也可以通过应用瓦里斯于1655年发现的\lim_{N\to \infty}\sqrt{\frac{1}{2N+1}}\frac{2\cdot4\cdot\cdot6\cdot...\cdot2N}{1\cdot3\cdot5\cdot...\cdot(2N-1)}=\sqrt{\frac{\pi}{2}}来得到。1730年,狄莫弗改进了斯特灵当年发表的公式,得到了著名的斯特灵公式m!=\sqrt{2\pi}m^{m+\frac{1}{2}}exp(-m+\frac{1}{12m}-\frac{1}{360m^3}+...)

三年后的1733年,狄莫弗终于“走出了具有决定意义的一步,证明了当N\to\infty时,有\frac{b(m+d)}{b(m)}\sim exp(-\frac{2d^2}{N})”,结合b(m)\sim \sqrt{\frac{2}{\pi N}},得到b(m+d)\sim\frac{2}{\sqrt{2\pi N}}e^{-\frac{2d^2}{N}},用定积分近似代替和,得到狄莫弗中心极限定理P_d=\sum_{i:|m-i|\le d}\cdot b(i)\sim\frac{1}{\sqrt{2\pi}}\int^{\frac{2d}{\sqrt{N}}}_{\frac{-2d}{\sqrt{N}}}e^{-\frac{x^2}{2}}dx,由此可得,给定c>0,令d=c\sqrt{N},得P_{c\sqrt{N}}=P(|\frac{X}{N}-\frac{1}{2}|\le\frac{C}{\sqrt{N}})\sim\frac{1}{\sqrt{2\pi}}\int^{2c}_{-2c}e^{-\frac{x^2}{2}}dx。1774年,拉普拉斯证明了\frac{1}{\sqrt{2\pi}}\int^{\infty}_{-\infty}e^{-\frac{x^2}{2}}dx=1,结合P_{c\sqrt{N}}的式子,“可知若取c充分大,则对足够大的N,事件|\frac{X}{N}-\frac{1}{2}|\le\frac{C}{\sqrt{N}}的概率可任意接近于1.由于\lim_{N\to\infty}\frac{C}{\sqrt{N}}=0,由此推出对任给\epsilon>0,有\lim_{N\to\infty}P(|\frac{X}{N}-\frac{1}{2}|\le\epsilon)=1,即伯努利大数定律。”上面是p=\frac{1}{2}的情况,“狄莫弗也给出了任意p的结果:b(N,p,Np+d)\sim(2\pi Npq)^{-\frac{1}{2}}exp(\frac{-d^2}{2Npq})(其中q=1-p,当Np非整数,Np+d改为[Np]+d)。狄莫弗工作的意义主要有两个方面:1.由于“事件|\frac{X}{N}-\frac{1}{2}|\le\frac{C}{\sqrt{N}}的概率可任意接近于1”,这说明“用频率估计概率”的方法精度应该和\sqrt{N}成比例。2.狄莫弗中心极限定理构成了大样本方法的基础。

此外值得一提的是,1838年,泊松也得到了一个二项概率的逼近公式\lim_{N\to\infty}b(N,p,k)=e^{-\lambda}\frac{\lambda^k}{k!},\lambda=\lim_{N\to\infty}Np,此式适用于p很小、N很大、Np不大的情况,体现了泊松分布和二项分布的联系。

三、贝叶斯方法

托马斯·贝叶斯(Thomas Bayes,1701-1761)仅有两篇遗作流传至今,一篇为《An essay towards solving a problem in the doctrine of chances》,它在20世纪时突然受到了人们的重视,成为了贝叶斯学派的奠基石。该文主要讨论的问题是:在伯努利概型下,“给定了一个事件在一系列观察中出现的次数和不出现的次数,并给定两个数,要求该事件在一次观察中出现的概率\theta落在此两数之间的机遇。”用现代记号,可以表示为:“设X服从二项分布B(N,\theta),N已知而\theta未知。给定常数a、b,0\le a<b\le 1。在得到观察值X后,要求条件概率P(a\le\theta\le b|X)。”

贝叶斯问题的提法很符合人们的实际思考,当观察到的事件发生的越多,那么该事件对应的单次发生概率\theta也越大。该提法的反对者认为事件发生的概率是不以人的意志而变动的,此处\theta是一个确定的未知的值,因此P(a\le\theta\le b|X)也应该只有0或1两种可能,条件概率P(a\le\theta\le b|X)和观察结果X无关。支持者认为,尽管事件发生概率与观察者无关,但观察者需要获得足够多的信息才能去估计准确的\theta,这里的概念应当被视为一种信念程度。

贝叶斯学派将\theta视为一个随机变量,那么在计算\theta的条件分布之前,就需要知道\theta的无条件分布——“即在观察到X之值以前\theta有如何的分布?”在将概率视为对事件发生可能性大小的主观概率的视角下,贝叶斯提出,若人们对\theta的值一无所知,那么可以将\theta视为服从在所有可能区间上的均匀分布,如R(0,1)(现称为贝叶斯假设或“同等无知”假设)。关于这一假设,后来费歇尔提出一个有力的疑问:“若是对\theta一无所知,那么对\theta的一个函数,例如\theta^2,也是一无所知,故按贝叶斯假设,\theta^2也应该有均匀分布R(0,1),这就与\theta\sim R(0,1)产生了矛盾。”

对于上面的费歇尔的质疑,贝叶斯学派有一种解释:在离散情况下,同等无知假设是可以避免费歇尔的那种责难,比如“X取0,1,...,N都有可能,且可能性相同”,那么P(X=i)=(N+1)^{-1},i=0,1,...,N,即便你任取一个单调函数g,也有P(g(X)=g(i))=(N+1)^{-1},i=0,1,...,N,两者是等价的。因此,直觉上看,均匀分布作为同等无知假设的先验分布是有道理的。

在有了先验分布\theta\sim R(0,1)后,贝叶斯所得问题的解:P(a\le\theta\le b|事件出现X次)=\frac{P(a\le\theta\le b,事件出现X次)}{P(事件出现X次)}=\frac{\int^b_a\theta^X(1-\theta)^{N-X}d\theta}{\int^1_0\theta^X(1-\theta)^{N-X}d\theta}=(N+1)C^N_X\int^b_a\theta^X(1-\theta)^{N-X}d\theta。当时贝叶斯在对全概率公式的积分计算上遇到了不少困难,只是用逼近法进行计算。拉普拉斯于1774年尝试解决这个问题时,发到了现称为“贝叶斯相合性”:“设概率的真值为\theta_0,作N次试验,观察到事件出现X_N次,任给\epsilon>0,按条件概率公式有P(\theta_0-\epsilon\le\theta\le\theta_0+\epsilon|X_N)=(N+1)C^N_{X_N}\int^{\theta_0+\epsilon}_{\theta_0-\epsilon}\theta^{X_N}(1-\theta_0)^{N-X_N}d\theta。拉普拉斯证明:当N\to\infty时,上式右边依概率收敛于1.这说明:只要试验次数N足够大,\theta将以任意接近于1的概率落在\theta_0的一个任意小的近旁。”

频率学派和贝叶斯学派的差别可以“在估计二项分布\theta的问题中看得很清楚,以X记事件在N次观察中出现的次数。用频率\frac{X}{N}估计\theta,其与\theta接近的程度,可以用方差E(\frac{X}{N}-\theta)^2去衡量,(频率学派)这求期望的运算是针对X的分布,\theta始终看作固定,没有随机性。”贝叶斯学派的解法是:原先就假设\theta\sim R(0,1),“经过样本X的信息的加入,我们把对\theta的了解调整为beta分布(N+1)C^N_X\theta^X(1-\theta)^{N-X}”,“经过样本的作用,我们对\theta的了解有了不同,原先认为\theta取[0,1]内各值有同等的机会,现在认为,\theta\frac{X}{N}附近之值的机会较大,离\frac{X}{N}远的值则机会较小。”

贝叶斯学派在20世纪上半叶不得势的原因,一是其不受费歇尔、奈曼等大统计学家的欢迎,二是当时也是频率学派大发展的一个时期,人们没有“另寻出路”的打算。经过杰弗里斯(H.Jeffeys)、萨凡奇(L.J.Savage)、林德莱(D.V.Lindley)等人的宣传,贝叶斯学派到20世纪进入了其全盛时期。

罗宾斯(H.Robbins)于1955年提出了经验贝叶斯方法(EB方法),企图解决定先验分布无章可循的问题,不过这种方法的实质是一种频率学派的方法。罗宾斯认为,“如果某一问题曾反复出现并在历史上记录有资料,则这种资料中应包含有关于先验分布的信息,因而可以利用”,就是说,在使用样本X来增加信息时,也要把以往资料X_1,...,X_M用上,这些以往数据更能让我们得到较好的先验分布。这是可以理解的,例如,“某一选手在当前这次大赛中表现不佳,但当我们对这一选手的水平作出评估时,我们不止注意到他在当前这次大赛中的表现,还要参考他在历史上多次重要比赛中的表现。”

四、最小二乘法

“算术平均是解释最小二乘法的最简单的例子。设对某个未知量\theta重复作n次测量,结果记为x_1,...,x_n。想要利用这些测量值对\theta作一估计,推理如下:设真值为a,则测量值x_i的误差为:\epsilon_i=x_i-a,i=1,...,n。因为测量值应在真值附近”,所以为使误差尽可能小,可以使得L(a)=\sum^n_{i=1}\epsilon^2_i=\sum^n_{i=1}(x_i-a)^2最小的\hat a值一般就是真值。“容易算出,使L(a)达到最小的a值,正是x_1,...,x_n的算术平均\overline x=\frac{\sum^n_{i=1}x_i}{n}。”这反过来也说明,使用算术平均作为真值的估计值有一定的道理。“最小二乘法的一般形式可表述为:目标函数=\sum(观察值-理论值)^2。”第一个书面采用最小二乘法的是勒让德于1805年发表的《计算彗星轨道的新方法》,而高斯的有关著作发表于1809年,但(高斯声称自1799年以来一直在使用该方法,)现在一般将最小二乘法的发明和高斯相联系。最小二乘法的方便之处是“如果在事后打算弃置某些观察值不用或增加了新的观察值,对正则方程的修改易于完成。”

勒让德要面临的问题可以写为下面的形式:“有若干个我们想要估计其值的量\theta_1,...,\theta_k,另有若干个可以测量的量x_0,...,x_k。按理论,这些值之间应有线性关系x_0+x_1\theta_1+...+x_k\theta_k=0.”“现设进行了n次观测,n\ge k,第i次观测中,x_0,...,x_k分别取值x_{0i},...,x_{ki},应有x_{0i}+x_{1i}\theta_1+...+x_{ki}\theta_k=0,i=1,...,n。如果n=k,则一般由方程组可唯一地解出\theta_1,...,\theta_k之值,可以就取它们作为\theta_1,...,\theta_k的估计值。当n>k时该如何办?”可以从这n个方程中任选k个去解,但是实际测量中是存在误差的,将实际测量数据和真值\theta代入等式后等式不一定成立,所以我们需要一种可以减少误差影响的估计方法。勒让德的方法是采取使\sum^n_{i=1}(x_{0i}+x_{1i}\theta_1+...+x_{ki}\theta_k)^2达到最小的原则来求解\theta_1,...,\theta_k.对各\theta_i求偏导可以得到线性方程组(现称为“正则方程组”)\sum^k_{r=1}s_{rj}\theta_r+s_{0j}=0,j=1,...,k.,s_{rj}=\sum^n_{i=1}x_{ri}x_{ji},r=0,1,...,k,j=1,...,k

高斯后来针对解该类方程组发展了高斯消去法,并于1809年发表正态误差理论补足了最小二乘法的误差分析问题。“按通常的记法把线性模型写为y_i=x^\prime_i\beta+e_i,i=1,...,n。这里y_i和x_i分别为1维和p维,x_i视为普通的已知p维向量,不带随机性,而e_i为独立同分布的随机误差,期望为0,方差\sigma^2非0有限。用最小二乘法,得到决定\beta的最小二乘估计\hat \beta的线性方程组(正则方程组)S\hat\beta=XY,X=(x_1\vdots\cdots\vdots x_n),S=XX^\prime,Y^\prime=(y_1,...,y_n)”。高斯通过消去法得到\beta的(线性)无偏估计\hat\beta=S^{-1}XY,“又对\beta的任一线性函数c^\prime\beta,其最小二乘估计c^\prime\hat\beta也是(线性)无偏估计。”

1823年,高斯于《数据结合原理》中证明了高斯-马尔科夫定理。“高斯-马尔科夫定理断言,在c^\prime\hat\beta的一切线性无偏估计类中,唯有其最小二乘估计c^\prime\hat\beta的方差达到最小。”这个定理肯定了最小二乘估计的合法性。在任意维参数\beta的一个分量的情况下,高斯是这么证明的:“设c^\prime Y=\sum^n_{i=1}c_i y_i为\beta_1的无偏估计,则因c^\prime Y=c^\prime X\beta+c^\prime e,必须有c^\prime X=(1,0,...,0)。在这个约束下,使方差即积分\int(\sum^n_{i=1}c_i t_i)^2g(t_1)...g(t_n)dt_1...dt_n达到最小,g为e_i的密度。”(什么意思呀。。)

那为什么此定理要附上马尔科夫的名字呢?“据西尔在《高斯线性模型的历史发展》一文中说,高斯的证明发表后,有一些学者在自己关于最小二乘法的著作中写进了自己的证明,其中包括德国的赫尔梅特和俄国的马尔科夫,后者的证明包含在他1913年在莱比锡出版的《概率论》中... ...但奈曼在1934年发表的一篇论文中,以为这是一个新结果,马尔科夫的名字于是被缀在高斯之后而成为定理的发明者之一。”

由于最小二乘法容易受极端值影响,稳健性较差,人们开始尝试寻找增长比平方更慢的函数p去代替平方。波斯科维奇于1760年提出最小一乘法,即将原来的平方改为取绝对值。休伯(P.J.Huber)于1964年提出M估计:“即x_i=\theta+e_i,1\le i\le n.取定函数\rho,找出使函数M(\theta)=\sum^n_{i=1}\rho(x_i-\theta)达到最小的\theta,记为\widetilde\theta\widetilde\theta称为\theta的M估计。当\rho(u)=u^2时,M估计即最小二乘估计。”当\rho(u)=|u|时,M估计即最小一乘估计。

五、误差与正态分布

“狄莫弗早在1730年-1733年间已从二项分布逼近的途径得到了正态密度函数的形式,但当时其身份还只是一个数学表达式而非概率分布,甚至到1780年拉普拉斯得到一般中心极限定理的形式时,也还是这个情况。唯有高斯在1809年提出‘正态误差’的理论后,它才取得‘概率分布’的身份并因此引起人们的重视。”正态分布的正式来源,应该算是测量误差理论。同样地,上一章的最小二乘法,只有在建立了测量误差分布的概率理论后,才可以被视为一个统计方法。

误差理论的基本问题是指:“随机测量误差服从怎样的概率规律,即有怎样的概率分布。”最早关心使用算术平均的合理性问题,并从误差分布理论的角度考虑该问题是天文学领域。1619年,开普勒的《和谐的世界》中提出了“模型选择的最终标准是其与观察数据的符合程度”的原则,这种说法暗含了误差概率理论的问题。伽利略(G.Galileo,1564-1642)于1632年出版的《关于两个主要世界系统的对话——托雷密和哥白尼》中首次使用了“观测误差”的名称,他的这个误差用现今的术语讲就是“一个关于0的对称分布,其概率密度f(x)随|x|增加而递减”,这个误差概念日益成为以后学者研究问题的出发点。

辛普森(Thomas Simpson,1710-1761)希望证明取算术平均的做法要优于取个别误差,他的工作“只是在误差(假定为独立同分布)满足某种特定的分布的前提下,去计算平均误差(误差的算术平均,即各观测值的算术平均的误差)的分布,从而证明在某种概率的意义下,平均误差小于个别误差”。问题可以表述如下:“设被测量的量真值为\theta。n次(独立同分布)观测值为X_1,...,X_n.于是各种测量的误差为e_i=X_i-\theta,1\le i\le n.若用\overline X=\frac{\sum^n_{i=1}X_i}{n}去估计\theta,其误差为\overline e=\frac{\sum^n_{i=1}e_i}{n}。辛普森想要证明的是:在下述意义下,\overline e比单次测量的误差e_1小,即:P(|\overline e|\le k)\ge P(|\overline e_1|\le k),k>0.”该不等式如果成立,就说明了平均误差接近于0的概率总是大于等于单个误差。辛普森只对P(e_1=i)=(6-|i|)r,i=-5,-4,...,4,5(r=\frac{1}{36})的特殊情况证明了该不等式。该误差分布中,e_1取0的概率最大,然后在两边按比例下降,直到-6和6处为0.辛普森注意到,该误差分布其实是两个独立的均匀分布的叠加P(\xi=\frac{i}{2})=\frac{1}{6},i=\pm 1,\pm 3,\pm 5,从而推广到f(i)=\begin{cases}i+a,&\text{若i<0} \\ -i+a,&\text{若}i\ge 0 \end{cases}是两个独立的均匀分布R(-\frac{a}{2},\frac{a}{2})的叠加。辛普森推测,任何符合“对称,随|x|增大而下降”的误差分布都可以变为均匀分布的叠加,从而其平均误差接近0的概率总是大于等于单个误差。虽然正态误差符合这个推测,但存在不符合推测的例子。

拉普拉斯(P.S.Laplace,1749-1827)希望能找到误差的一个“典型”分布,他考虑误差密度f应关于0对称,且f(x)随x的增加而愈平缓,直到x趋于无穷时f(x)趋于0,其下降率-f^\prime(x)也随x的增加而下降。因此,拉普拉斯假定-f^\prime(x)和f(x)总保持恒定比例,即-f^\prime(x)=mf(x),x\ge 0,m>0,m为常数。解该方程并联合f(x)=f(-x),\int^\infty_{-\infty} f(x)dx=1可得拉普拉斯分布(重指数分布)f(x)=\frac{m}{2}e^{-m|x|},-\infty<x<\infty。拉普拉斯接下来想要处理着手解决通过\theta的观测值X_1,...,X_n去估计\theta的问题,设误差密度为f,“则观察\theta得到值x的概率与f(x-\theta)成比例。因此,n次独立观测得到值X_1,...,X_n的概率,与f(X_1-\theta)f(X_2-\theta)...f(X_n-\theta)成比例”,从而有f(\theta|X_1,...,X_n)\propto f(X_1-\theta)...f(X_n-\theta).

1809年,高斯(Carl Friedrich Gauss,1777-1855)于《绕日天体运动的理论》中沿着拉普拉斯的工作,得到了误差服从正态分布的形式。他设L(\theta)=L(\theta;X_1,...,X_n)=f(X_1-\theta)...f(X_n-\theta),其中f为待定的误差密度函数,将使L(\theta)达到最大值的\hat\theta作为\theta的估计。(自费歇尔开始,现在称L(\theta)为样本X_1,...,X_n的似然函数,\hat\theta为\theta的极大似然估计。)高斯先假设\overline X就是\hat\theta,然后去求误差密度函数f,“即找这样的f,使... ...\hat\theta就是\overline X”.高斯最后证明了,只有在f(x)=\frac{1}{\sqrt{2\pi}h}e^{-\frac{x^2}{2h^2}}时,\hat\theta才能是\overline X,这个f(x)就是正态分布N(0,h),h>0。到这里为止,最小二乘法、测量误差、正态分布就可以关联起来了。(x_{0i},...,x_{ki})是第i次观测数据,e_i=x_{0i}+x_{1i}\theta_1+...+x_{ki}\theta_k是第i次观测的误差,正态分布f(x)=\frac{1}{\sqrt{2\pi}h}e^{-\frac{x^2}{2h^2}}为误差密度,要使其似然函数L(\theta_1,...,\theta_k)=(\sqrt{2\pi}h)^{-n}exp(-\frac{1}{2h^2}\sum^n_{i=1}(x_{0i}+x_{1i}\theta_1+...+x_{ki}\theta_k)^2)达到最大,必须取\theta_1,...,\theta_k的值可以使得\sum^n_{i=1}(x_{0i}+x_{1i}\theta_1+...+x_{ki}\theta_k)^2达到最小,而使得该式子最小的\theta_1,...,\theta_k就是其最小二乘估计,反过来,高斯-马尔科夫定理断言最小二乘法估计可以使得其方差达到最小。高斯的这项工作意义重大,使得正态分布有了“高斯分布”的名称,也使高斯取得了最小二乘法的发明权。

拉普拉斯得知高斯的结果后,于1810年给出了其中心极限定理“指出如若误差可看成许多量的叠加,则根据他的中心极限定理,则误差理应有高斯分布。”“这是历史上第一次提到所谓的‘元误差学说’——误差是由大量的、由种种原因产生的元误差叠加而成。”到1837年,海根(G.Hagen)才正式地提出这一学说。高斯的说法其实带有循环论证的气味:“由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性”,而拉普拉斯的这一发现给了正态分布一个非常重要的地位:只要足够多的误差叠加,最终会形成正态分布。

多维正态密度的特例最早见于1776年拉格朗日的著作,其正式被导出在1812年拉普拉斯的著作《概率的分析理论》,但直到1846年,多元正态分布才以多个随机变量的联合分布身份出现在布拉瓦依斯的文章里。布拉瓦依斯也是应用在测量误差领域,而且没有化简到目前熟悉的形式\frac{1}{2\pi\sigma_1\sigma_2(1-\rho^2)^{\frac{1}{2}}}exp\{-\frac{1}{2(1-\rho^2)}(\frac{y^2_1}{\sigma^2_1}-2\rho\frac{y_1 y_2}{\sigma_1 \sigma_2}+\frac{y^2_2}{\sigma^2_2})\}。至于多元正态作为“统计数据”的模型,则要到1885年高尔登得出二元正态密度的一般形式,对一般m元的情况,要到1892年由埃其渥斯于《相关的平均值》中提出。但埃其渥斯所使用的符号相当复杂,到1896年卡尔·皮尔逊才采用矩阵将结果写成容易理解的形式。

在拉普拉斯和高斯的理论下,人们开始理所当然地认为正态分布处处有效,当在数据中看到和正态的偏离,人们往往会认为是由于数据不够多。“在19世纪也还是有一些学者注意到,一组数据的正态性并非是一个可取作当然的事实,而需要通过某种方法去检验之。”“魁特奈特引进了一种用正态分布去拟合数据的方法,通过对比各数据区间的观察频数与拟合频数,去判断拟合的效果如何,他并建议用p\ne \frac{1}{2}的二项分布去拟合偏态数据”,高尔登于1879年指出存在非正态的可能,并引进对数正态分布来拟合所谓“乘法规律”起作用的数据。

直到19世纪后期,人们才开始研究偏态数据的分布问题,主要的出发点有二:“一是从测量误差的角度看,一是从一般的统计数据(如一群人身高的值)的角度看”。(在19世纪时,误差分析与统计学是两个不同的领域,埃其渥斯于1885年解释道:“前者是对一个对象的重复测量值,而后者是一些不同对象(对一群人的身高)的测量值”,不过因为“处理它们的统计学理论和方法并无二致”,如今的统计学不再强调两者间的差异。)

到1893年,卡尔·皮尔逊在《数学用于进化论》提出了皮尔逊\romannumeral3型(现称为Gamma分布族)f(x)=ce^{-\alpha x}x^\beta,0<x<\infty,c=\frac{\alpha^{\beta+1}}{\Gamma(\beta+1)},\alpha>0,\beta>-1,他把这称为“正态分布的推广形式,具有非对称的性质”.接着在1895年,“皮尔逊发表了其依据二项分布和超几何分布而得到的、他的曲线族所满足的微分方程:\frac{1}{y}\cdot\frac{dy}{dx}=\frac{dx+e}{ax^2+bx+c},其中a,...,e为常数。令这些常数取种种值,可得到种种不同的解,其全体统称皮尔逊曲线族。”(包括正态分布、Gamma分布、卡方分布、t分布、F分布等。)然后,皮尔逊于1902年的《生物计量》上解释了如何以及为何可以用矩法决定皮尔逊曲线族中的参数。该工作虽在今天看来有很大的成就,但当时备受学者的质疑。查利尔于1910年在《数理统计学》序言中批评皮尔逊曲线缺陷原生数据,并且其导出没有与误差理论有关,其背景不能指示实际问题。另一方面,其审稿人高尔登认为虽然皮尔逊的工作有独创性,但这些分布是建立在我们对现象完全无知的情况下的,所以很少有应用场合;如果正态分布不适用,那么更可能是有某种大的影响因素存在,该因素应当被分离研究。

六、社会统计

统计学的一个起源是国家各类资料的收集,在17、18世纪曾被称为“国情学”,包括有关人口、经济、地理乃至政治方面的内容,到19世纪初,才逐步向现在的统计学概念靠拢。“卡尔·皮尔逊指出,最初在现代意义上使用‘统计学’一词的,是英国学者辛克莱,在其所著《The Statistical Account of Scotland 1791-1799》一书中”。描述统计的开山之作,则是格朗特(John Graunt,1620-1674)在1662年发表的《关于死亡公报的自然和政治观察》,有的学者也称其为统计史的起点。

格朗特的《...观察》依据1604年起伦敦教会每周发表的“死亡公报”,该公报记录本周死亡和受洗者(大致可反映出生人数)的包括死因的名单。《...观察》通过整理分析这些数据,来对伦敦人口问题作出一些论断。他提出了“数据简约”的概念,提出并举例处理了数据的可信性问题,提出统计比率的稳定性概念,发明生命表(现存人口的年龄分布)。一个具体例子是关于1603和1625年的黑死病流行的数据,1603年后9月死亡37294其中黑死病死亡30561占约82\%,1625年后9月死亡51758其中黑死病死亡35417占约68\%,格朗特依据这两年受洗人数推知,这两年死亡率相当且达最大,但为什么黑死病占比下降了?他注意到在1625年前后没有黑死病的年份,死亡人数约7000-8000,而1625年非黑死病死亡人数达18848人,比邻近年份多出约11000人,这表明黑死病死亡统计过低,很可能是由于家属行贿让登记者将黑死病死者改为其它原因死亡。另一个经典例子是男女出生率的差异,格朗特比对伦敦和罗蒙塞在某8年内的男女出生比,发现在伦敦男女出生率之比为14:13,而在罗姆塞为16:15,这是首次通过具体资料发现男女出生率有差异。这些工作在如今看来很稀疏平常,但当时却具有开创性。

威廉·佩蒂(William Petty,1623-1687)建立了“政治算术”,意为依据统计数字来分析政治、经济和社会问题,他1676年写成1690年出版的《政治算术》提出了一种思维:“有关经济以至社会、政治等方面的问题,应通过分析由调查所得的数据资料的基础上去解决。”

阿布兹诺特(John Arbuthnott,1667-1735)于1710年写成1712年发表了《从两性出生数观察的规律性所得关于神的意旨存在的一个论据》,按现在的说法该文章讨论了一个二项分布p=\frac{1}{2}的假设检验问题,不少著作将此看作假设检验的起点。阿布兹诺特依据1629年-1710年伦敦受洗男女婴的数据,1629年男5218女4683,1710年男7640女7288,他发现每年都是男多于女,于是作出以下推论:如果生男生女有同等机会,那么“连续82年都是‘男多于女’的机会,将不超过(0.5)^{82}=\frac{10^{-24}}{4.836},这个数小得难以想象,而机会这么小的事件,居然被观察到了,这是不合情理的”,所以“‘男婴出生率高于女婴’,是一个自然规律”,这个结论在当时的人看来是具有神的意旨的色彩的。后续的格雷维塞得(W.J.’s Gravesande)、尼克拉斯·伯努利经过详细的计算也得到了男婴出生率确是略大于女婴。

魁特奈特(A.Quetelet,1796-1874)的主要贡献,“是倡导并身体力行将正态分布用于连续性数据的分析”。他早期曾将拉普拉斯的方法“比例法”用于估计比利时的人口总数,其概念说明如下:“把全国人口总数与全国过去一段时间内人口出生总数的比值记为r,一段时间内人口出生数a可以从有关的登记资料中查出,若知道r,则人口总数为ar。拉普拉斯方法的创新之处在于提出用抽查局部地区的方法估计r”,选择多个均匀分布于全国各地的地区,以减少地区的特殊性。(这种方法现在称为“代表性抽样”,直到1895年凯尔才将代表性抽样作为一般方法提出来。)1824年,魁特奈特尝试估计低地国家(荷、比、卢)人口,发现数据的同质性问题,并为此引入了正态分布。同质性问题指的是数据之间除了待研究性质的差异外,其它性质应该是保持相同的,但实际社会调查的数据存在着很大的差别:“如居住在城市还是乡下,沿海、平原还是山区,高温还是低温地区,人口稠密还是稀疏地区... ...”因此,当时的不少学者(如开维伯格)认为“对不同质的数据进行统计分析没有意义”。那么“如何根据数据本身去判断其同质性”呢?魁特奈特的结论是:“把一批数据是否能充分好地拟合一个正态分布,作为该批数据是否同质的一个判据。”这一想法把正态分布从误差理论领域拉进了统计数据领域,突破了当时两个领域的理论不彼此适用的固有观念。

魁特奈特的另一个重要贡献是于1835年《人及其天赋的发展》提出的“普通人(average man)”概念,意思就是一个一切个体相应指标都为其所在群体的算术平均值的人,比如若城市男大学生的“普通人”身高1.72米、体重64千克,每月生活费500元... ...这些数值恰好就是该城市男大学生的平均身高、平均体重、平均每月生活费... ...魁特奈特的目的是建立“社会物理学”,以期望将社会学研究达到物理学的精密程度。

凯尔(A.N.Kiaer)于19世纪后20年领导了挪威的人口和农业普查工作,在此期间发展了“代表性抽样”的思想。“所谓代表性抽样,是指从总体中抽出的一组可代表该总体(在选定的指标上)的样本,是一个‘小型化’了的总体。”“问题在于怎样去获得这种样本。凯尔的做法是:把人群按地理、社会和经济等条件分成一些‘层’,按各层的大小依比例抽取若干样本。”他于1895年在国际统计学会上提出了自己的主张,当时引起了很大争议,但到1903年时,该主张已得到多数的认同。“为研究这个问题的委员会也在一定的保留之下接受了这个主张”,理由是凯尔的看法是根据经验而非理论的证明。鲍莱(A.L.Bow-ley)想“把概率方法引进到抽样调查中去”,“他作出这种论断是基于他对随机样本的研究,证明了中心极限定理对这种样本适用,且估计误差与抽取的样本个数无关”。“鲍莱指出,这一切的前提是样本的随机性:‘群体中每个个体有同等的机会被抽出,且这个概率与个体指标值的大小绝对无关’。”在鲍莱等学者的努力下,1926年的国际统计学会大会终于对抽样方法做了明确的肯定。

七、回归与相关:发现与早期发展

弗朗西斯·高尔登(Francis Galton,1822-1911)认同魁特奈特的正态分布的观点,“与正态曲线拟合得好是数据同质性的可靠标志”,而且还认为“若干个同质数据的混合体,可借助正态分布分离开。”他还尝试将正态分布用于非数量指标的情形,于1875年引进“统计尺度”,以下面的智力比较例子说明:“从A、B两城市各抽取其高一学生m、n名,要比较其智力水平,假定用一种综合性的测试方法,该法只判出两个学生中智力谁高谁低,但不给出数量大小,且方法有传递性。现用该法将全部N=m+n个学生判定一个由低到高的次序。如果某学生的位次为i,则定其‘统计尺度’为\Phi^{-1}(\frac{i}{N+1}),\Phi为N(0,1)的分布函数。这样就可以算出A城m个学生的统计尺度x_1,...,x_m和B城n个学生的统计尺度y_1,...,y_n。”

1877年,高尔登考虑问题,如果在一片条件不均匀的地方种植水果,向阳场所总是优于向背阴场所,那么为什么这一大片地方所结果实全体的大小分布仍拟合正态分布呢?他认为,“水果大小=‘处所’因素的作用+其他大量的各种影响不大的因素的作用的叠加”,而“‘所处’因素的作用也可以分解为大量的影响不大的因素作用的叠加”,于是有“水果大小=大量影响不大的因素作用的叠加”,所以按拉普拉斯中心极限定理,水果大小拟合正态分布也就不奇怪了。这一发现也成功回答了魁特奈特的数据同质性问题,表明“重要的不在于发现同质性,而是了解这一点:同质性表面的背后包含了许多‘异质’的成分。”

高尔登还发现了“回归”现象:“高个子的后代平均说来也高些,但不如其亲代那么高,要向平均身高的方向‘回归’一些。”1875-1877年,高尔登和其7位朋友分别种植7种不同大小豌豆各10粒,数据分析后有了重大发现:1.同一种大小豌豆的后代,其大小构成正态分布,而且其方差和原先豌豆的大小无关;2.“大(小)种子产生的子代,其平均也大(小)一些,但有往母代中心收缩的趋势,且收缩量呈线性形式”。高尔登用他自制的quincunx装置来解释这两种现象,quincunx现今也可以在少数游戏机室看到,顶部有一个漏斗将许多小球倒入,然后这些球会碰到下方的数排钉子林,碰到第一排的某个钉子后碰到第二排的位于正后的左右钉子分别有\frac{1}{2}概率碰到,最后落入底部槽内球数应服从二项分布B(n,\frac{1}{2}),当n足够大时,会接近正态分布。1885年,高尔登选择205对夫妇及其子女的身高作为观察对象,得到了和豌豆实验类似的结论,于1886年“发表了关于回归的开山论文《遗传结构中向中心的回归》”。1888年,高尔登使用人的(肘长、身高)数据348个,采用中位数拟合得到相关系数0.8,“这是统计史上第一个正式发表的相关系数数字。”后来埃其渥斯改用了算术平均来求相关系数。

埃其渥斯(Francis Ysidro Edgeworth,1845-1926)的功绩在于对“对一个对象a的重复观测值”和“对一些个体各自的观测值”能否采用同一种方法作了肯定的回答,“其代表性的例子是:设有两个(样本)均值\overline x、\overline y,其标准差分别为s_x,s_y,他用\frac{\overline x-\overline y}{(s^2_x+s^2_y)^{\frac{1}{2}}}是标准正态分布的命题去计算其或然误差,通过这个方法把概率分析引进到社会数据的比较中。”

“埃其渥斯对相关回归的主要贡献包含在他1892年写的《相关的平均值》一文中”,在数学方面使高尔登的观点更加清晰化,用数学形式表达出了回归和相关系数概念。以回归概念为例:先设m维变量(X_1,...,X_m)期望为0,有m维正态密度f(x_1,...,x_m)=c\cdot exp(-x^{\prime}Ax),则X_1的条件分布密度为f(x_1|x_2,...,x_m)=\frac{c\cdot exp(-x^{\prime}Ax)}{g(x_2,...,x_m)},其中g是(X_2,...,X_m)的密度,可以看出对x_1而言,条件分布f(x_1|x_2,...,x_m)仍是正态分布,“这条件密度取最大值之点,就是所求的条件期望”,也就是求x^{\prime}Ax的极值点,取x^{\prime}Ax与x_1有关的部分h(x_1)=a_{11}x^2_1+\sum^m_{i=2}2a_{1i}x_1 x_i,令h^{\prime}(x_1)=0,解出x_1=-2a^{-1}_{11}\sum^m_{i=2}a_{1i}x_i,“上式就是以X_1为因变量、X_2,...,X_m为自变量的回归方程(若各变量期望不设为0,则在上式以x_i-E(X_i)代替x_i)”。

但由于“埃其渥斯不长于用数学清晰表达其想法,所用的记号笨重,因而他的文章很难被人理解... ...埃其渥斯未能在广泛的实际问题中使用这些公式,他疏于亲自作观察收集数据,而使用他人(如高尔登)的数据作计算”,卡尔·皮尔逊(Karl Pearson,1857-1936)于1896年的《数学用于进化论》对此作了很好的综合和整理,并将这些方法大量地使用到生物测量数据,使现在不少教科书都将这些结果归于皮尔逊的名下。

乔治·尤德尼·约尔(George Udny Yule,1871-1951)曾担任过皮尔逊的助手,并在其影响下开始研究工作,约尔实现了将相关回归和最小二乘法相联系。约尔于1896年发现了如下结果“(仍设变量有期望0):若已知回归(即E(Y|X))有直线形式,则其形式不论(X,Y)服从正态与否都是y=(\rho\frac{\sigma_y}{\sigma_x})x。在实际问题中,可能出现数据呈偏态而回归则是接近线性者,这时在正态情况下发展的方法可照用不误,这就扩大了应用范围。”这个结果再往前一步有:“即使回归是曲线的但如我们想用一条直线来近似地代替它,则这条直线,如果用最小二乘准则,仍如上述一样。这相当于找出常数a、b使E(Y-a-bX)^2最小,结果易得a=0,b=\rho\frac{\sigma_y}{\sigma_x}。”这个想法使得相关回归和最小二乘法搭上关系。约尔和皮尔逊的区别是,皮尔逊重视分布,主要使用遗传学数据;约尔重视回归本身,主要使用社会经济数据,而社会经济领域常常存在着因果性关系。1920年代以后,约尔将这套方法用到时间相关数据上,开创了时间序列分析。

八、小样本:统计学的新台阶

“到20世纪,受人工控制的试验条件下所得数据的统计分析问题,日渐引人注意。由于试验数据量一般不大,那种依赖于近似正态分布的传统方法,开始招致疑问”。“小样本”的概念是:“任何一个统计方法,如果它在定义中未涉及要求样本量n \to\infty的成分(如利用统计量的极限分布来确定置信区间),或某个统计方法的一项性质其定义中未涉及要求n \to\infty,则这一方法和性质是小样本的。”

哥色特,笔名就是著名的Student(1876-1937),于1908年发表了《均值的或然误差》,提出了著名的t分布:“设x_1,...,x_n是抽自正态分布N(a,\sigma^2)的随机样本,a和\sigma都未知。记\overline x=\sum^n_{i=1}x_i,s=(\frac{\sum^n_{i=1}(x_i-\overline x)^2}{n-1})^{\frac{1}{2}}。则\frac{\sqrt{n}(\overline x-a)}{s}服从自由度为n-1的t分布t_{n-1}.”他推导t分布的步骤如下:“1.找s^2的分布。作法是:先算出s^2的偏度系数\beta_1=\frac{8}{n-1},峰度系数\beta_2=\frac{3(n+3)}{n-1},得到2\beta_2-3\beta_1-6=0.据此,他推断:‘s^2的分布可望能拟合一个属于皮尔逊3型的分布。’按矩法定出s^2的密度为c\cdot x^{\frac{n-2}{2}}e^{\frac{-nx}{2\sigma^2}},x>0,c>0,c为常数。2.证明\overline x^2与s^2不相关。这通过计算相关系数容易得出。3.据2.,用独立变量商的密度公式算Z=\frac{\overline x}{s}的密度。由于\overline x、s的密度都已知悉,这个计算不难。”后来费歇尔发现了推导过程中的漏洞,并于1925年发表了完整的证明,他因此发展了“n维几何”的方法。(漏洞在哪里。。)

《均...》的开头写有这篇论文的动机,Student希望找到关于可以认为\frac{\overline x}{s}为正态分布的样本量“大”和“小”的界限。t分布的意义在于它是小样本理论的初期论文,后续的研究都将Student尊为小样本理论的开创者和鼻祖。此外,值得一提的是,Student是当时英国统计界唯一与各大牛都保持良好关系的学者,无论是卡尔·皮尔逊、爱根·皮尔逊,还是费歇尔、奈曼,都与Student有着密切的交往。

罗纳尔多·费歇尔(Ronald Aylmer Fisher,1890-1962)是一届大统计学家,但我在这里不会过多的介绍他。他于1919年开始在罗瑟姆斯特农业试验站工作,在那里“因为农业试验上的需要发展了一整套试验设计的思想,包括随机化、区组、重复、混杂和多因素试验等,奠定了数理统计学中有极大实用价值的分支‘试验设计’,并从理论上奠定了分析这种实验数据的方法——方差分析法的基础。”

早在1897年,卡尔·皮尔逊就得出了相关系数r的标准差公式\frac{1-\rho^2}{\sqrt{n}},并认为当n很大、|\rho|不很接近1,那么r近似服从正态分布。1908年,Student发表了“在总体相关系数为0时,二元正态样本相关系数的精确分布,这是关于正态样本相关系数的第一个小样本结果。”1915年,费歇尔采用“n维几何法”解决了相关系数r的精确分布问题。这个结果收到了皮尔逊的赞赏,两人开始就下一步工作各自开展了研究:“对怎样的n和\rho,可以放心地把r的分布近似地当作正态分布来处理”。皮尔逊希望从“硬算”入手,计算各种可能的n和\rho,于1916年发表了《相关系数的小样本分布》,但结果一般;费歇尔则希望将r的分布通过变换到正态上,于1921年发表了《小样本相关系数的“或然误差”》,得到了不错的结果。值得注意的是,皮尔逊在《相关系数的小样本分布》中“批评费歇尔在其1915年文章中使用贝叶斯法且对\rho用了一个错误的先验分布”,而费歇尔自然对此予以辩驳,这件事使两人隔阂增大。自1922年后陆续出现关于多元回归系数、偏、复相关系数等文章,到1933年巴特莱特发表了《统计回归理论》,高尔登的古典回归相关理论就此落下了圆满的句号。

如果把多维正态纳入到“线性统计模型”的体系内,那么这个体系的发展大致可以分为三个阶段:“第一阶段自19世纪初直至该世纪末尾,代表人物有高斯及拉普拉斯、勒让德等人,形式是误差论并逐渐渗入到统计数据分析问题。第二阶段从19世纪末到20世纪20年代初期,代表人物主要是卡尔·皮尔逊,形式是把多元正态与这模型联系起来,重点转到相关回归。第三阶段可以说始自1922年,代表人物是费歇尔,形式是回复到以自变量为非随机非离散化,重点问题是方差分析并联系到试验设计的发展。”

方差分析的思想早在19世纪时,便由莱克西斯(W.Lexis,1837-1914)提出,他认为“要进行有意义的比较,统计序列(现称为时间序列)必须是稳定的”,这是由于“序列中的变化纯粹是由于随机性的原因,而没有系统性因素起作用”。1917年,斯卢茨基(E.Slutsky)提出了“运用皮尔逊的拟合优度思想去检验回归是否为线性的问题。”在这里不介绍斯卢茨基的具体推导,但他的那篇文章包含了关键的方差分析思想:“s^2_i反映与模型取法无关的随机误差,而残差r_i,则不仅与随机误差有关,还与模型取得是否正确有关,模型与实际偏离愈大,r_i一般也会愈大,所以\frac{r^2_i}{s^2_i}这个量反映了以随机误差水平为标杆去衡量模型与实际的偏离程度:此量愈大,模型与数据的符合看上去愈差,这就是统计量\xi的实际背景。”斯卢茨基的论断含有数学错误,但费歇尔抓住了其思想,于1922年发表了《回归公式的拟合优度及回归系数的分布》,于1923年与麦肯齐发表了第一个方差分析的实用例子并运用到罗瑟姆斯特农业试验站的试验设计上,于1924年的国际统计学会大会上正式提出了方差分析。

九、假设检验

假设检验的一系列理论的空前意义在于:“自有统计学以来,破天荒第一次在一个重要领域把其基本概念和所要解决的问题严格地用数学表达出来,即把统计问题的解化为一个数学最优化问题。”“十余年后,瓦尔德(Abraham Wald,1902-1950)把这一想法推展到整个的数理统计学领域,建立了统计决策函数理论。”

卡尔·皮尔逊于1900年发表了首篇关于拟合优度的文章《On the criterion that... ...random sampling》,他想要“建立一个准则,以判定一组相关变量与其或然值的偏差,可否被合理地解释为是由于随机抽样所致。”例如,对于一组n个k维数据(x_{i1},...,x_{ik}),i=1,...,n,我们想要判定它们是否是从某个发生概率为(p_1,...,p_k)的多项分布中抽出,可以计算其频数与理论值(np_1,...,np_k)的偏差,当偏差达到多少时可以认为该随机抽样并不只是误差导致呢。皮尔逊引进了一个刻画其偏差的量,并证明了其近似有\chi^2分布,利用结果去计算一个介于0、1之间的拟合优度,此值愈大,说明拟合程度愈好,也就是说可以认为它们是从(p_1,...,p_k)的多项分布中抽出。

皮尔逊的文章内容可以概括如下:“把n个量与其或然值(即待检验理论值)的偏差记为x_1,...,x_n。假定它们的方差为\sigma^2_1,...,\sigma^2_nx_ix_j的相关系数为r_{ij}。以R记行列式|r_{ij}|之值,R_{pq}r_{pq}的代数余子式。皮尔逊断言,这组变量的‘相关曲面’是-\frac{1}{2}\{\sum^n_{i=1}\frac{R_{ij}}{R}\frac{x^2_i}{\sigma^2_i}+2\sum_{1\le i<j\le n}\frac{R_{ij}}{R}\frac{x_i}{\sigma_i}\frac{x_j}{\sigma_j}\}=-\frac{1}{2}\sum^n_{i,j=1}\frac{R_{ij}}{R}\frac{x_i}{\sigma_i}\frac{x_j}{\sigma_j}”。这个表述隐含了(x_1,...,x_n)服从n维正态分布的假定(即“相关曲面”),他将花括号中的量定义为\chi^2,并认为它服从自由度n的\chi^2分布,其理由是“如果把(花括号)曲面加以压缩,会得到一个球,即n个变量的平方和,因而有\chi^2分布。”(看不懂...)因为\chi^2统计量只是在极限情况下有\chi^2_n分布,所以皮尔逊的结果是一个大样本结果。

皮尔逊的论文中有一个错误:“在考虑当多项分布的概率依赖于若干个参数的情况时,认为最后所得的\chi^2统计量的自由度不受影响,即与这些概率完全已知时的情况一样”。这个错误直到费歇尔于1922年发表《列联表的\chi^2统计量的解释》才发现,他采用列联表的特例来分析\chi^2统计量的自由度问题,然后于1924年发表《\chi^2作为度量观察值与假设间的偏差的条件》对此问题作了理论上的解答。皮尔逊和费歇尔在这个问题有着很大的争辩,当时还引发了统计学界的分歧。但不管怎么说,皮尔逊的这项工作“标志着统计学最终告别以描述性为主要特征的时代而全面进入以严格的概率方法为基础的推断时代”。

费歇尔于1936年发表了《试验设计》,发挥了其显著性检验的思想。他认为需要适当地设计试验(适当地:“一是试验要有随机性,以使检验统计量服从一定的概率分布;二是包含重复、分区组等技巧,以降低误差的影响而提高试验的灵敏度”),使可以检验某种关心的性质或效应的有无。在零假设的前提下,根据试验结果计算提前敲定的统计量T,其值的大小可以反映否定零假设的强弱。若在实验中得到的T值为T_0,计算在零假设成立下T可以达到T_0的概率,如果该概率很小就可以说明零假设成立的前提不对。一般取显著性水平0.01或0.05,当该概率小于显著性水平时,就可以认为这个概率足够小到作为否定零假设的证据。费歇尔提出了著名的“女士品茶”来说明这个思想,并采用了达尔文的一个试验来进行实际应用说明。皮尔逊的拟合优度和费歇尔的显著性检验,前者针对分布,后者针对效应,但思路和作法是一致的:“都是要找出一种能衡量数据与假设的偏差的量,并用其概率(拟合优度和显著性水平)来衡量假设是否可信。”

爱根·皮尔逊是卡尔·皮尔逊的儿子,他一直有着一个疑问:可不可以制定某些原则来指导在处理同一问题时应该采用哪种有确切概率计算的方法。他于1926年开始与奈曼写信交流了假设检验及似然比检验的问题,并于1930年和1931年发表了两人第一阶段的合作论文。他们证明了两抽取自不同的正态总体的样本,当m和n很大时,-2log\lambda在两正态总体相等的前提下渐近于\chi^2_2分布。在1930-1934年期间,两人再次开始了合作,奈曼想到如下问题:“或者证明似然比检验在某种意义上为最优,或者设法找出最优检验”,这个问题是他日后发现“基本引理”及一致最优检验的动机,合作论文《关于统计假设的最有效检验问题》于1933年发表,《对假设检验理论的贡献》于1936和1938年发表。此外,应当提到的是,1930年,奈曼应邀从英国到美国加州伯克利大学数学系,奈曼的纯数学倾向极大影响了美国统计界,此举使加大成为了当时美国的统计中心,并逐步提升了美国的统计实力。

十、参数估计

在1910年以前,参数估计有四种常用的方法:矩法、极大似然法、最小二乘法和贝叶斯法。贝叶斯法因当时的皮尔逊和费歇尔都对之持有批判态度,所以有些低迷;最小二乘法在特定范围无人争议,且其发明者已是古人。唯独矩法和极大似然法分别有皮尔逊和费歇尔两人站队。(没错,这两人又争论了起来。。)费歇尔早在1912年就发表了一篇文章,批评了最小二乘法和矩法不能作为普适的“绝对准则”,但该文没有引起什么反响,直到1922年,他发表了《理论统计学的数学基础》说明“除了正态分布以外,矩法没有被证明能获得最好值... ...像在估计柯西分布参数那样的情况,矩法根本不能用。”他证明了“极大似然估计的(渐近)方差为费歇尔信息量的倒数,而矩估计的方法则大于它。”但皮尔逊不能接受这一论证,他于1936年提出“对效率比较必须有一个大家同意的标准,即大家都接受的‘最好的’(估计)的定义”。皮尔逊于1936年去世,而费歇尔还在1937年发表了《皮尔逊教授与矩法》,往后的教材几乎都认为极大似然估计优于矩估计,费歇尔最终取得了这场争辩的表面胜利。

早在1812年,拉普拉斯在《概率的分析理论》中就很接近统计量的充分性概念,费歇尔于1920年的《关于确定一个观察值的精度的两种方法的数学考察:平均误差与均方误差》提出了“充分性”概念,于1922年《理论统计学的数学基础》提出了充分性的名词。费歇尔的点估计大样本理论,主要基于1922年的《理论统计学的数学基础》和1925年的《点估计理论》,他把统计问题划分为3个方面:“1.型式化,即选定一族分布作为统计问题的模型.2.估计,即找一个统计量以估计模型中参数的值.3.统计量的抽样分布”,这个总体框架直到今天仍在继续沿用着。

无偏性作为寻找良好估计的原则最早出自高斯1821年的《数据结合理论》,无偏性那时作为“无系统误差”的一种表述并与最小二乘法相关联,同时方差作为无偏估计优良性的指标也是出自高斯。到1950年,已经出现了不少具体的UMVU例子,莱曼和歇菲发表《完全性、相似区域与无偏估计》,提出了统计量的完全性概念。后续的瓦尔德统计决策理论则分别从损失函数的一般化和优良性标准的多样化来拓展点估计小样本理论。

“到1930年初,已有两种构造区间估计的方法,一种是贝叶斯法,此法有固定的程式... ...问题在于先验分布的取法没有定准”,另一种是费歇尔的信任分布法,出自他1930年的《逆概率》。可以用这个简单例子说明:“设样本x抽自正态总体N(\theta,1),可以把x表为x=\theta+e,e\sim N(0,1),把e移向左边,得\theta=x-e。”费歇尔把x看作固定,e仍保持原来身份,那么\theta就可以视为一个服从N(x,1)的随机变量,费歇尔称N(x,1)为\theta的信任分布。人们原来认为费歇尔信任分布只是原有方法的不同说法而已,但当问题涉及在方差不同且未知情况下作两个正态分布均值差的区间估计问题时,信任分布的方法和频率派的经典方法不一样,前者更加明确且简便。但是,由于没有确定信任分布的一般方法,该信任分布法没有被广为接受。经典的频率派方法以奈曼为代表,最初应用于1934年的《论代表性抽样的两个方面》,其最初的想法是:“区间估计[A(x),B(x)]是一个依赖于样本x的随机区间。其置信度,也称置信系数,则是这个区间能包含\theta的概率”,这种方法可以和假设检验建立联系。这与贝叶斯法和信任分布法不一样,因为前面两者的置信度都是理解为当作随机变量的\theta落在区间[A(x),B(x)]的概率,而样本x看成固定的。

十一、读后感

说实话,这本书看完我也一知半解,这里的大部分内容都是纯属的摘录而已,如果读者有什么疑问请自行查书,但权当作一份记录笔记倒也不赖,起码显得自己学得很努力嘛。总的来说,从整个数理统计学的历程来看,统计学中关键的进步往往出自于研究者的思考方向的转变,不再执意于原有的视角,从而做出开创性的工作。

一是要熟悉一些非主流方法。贝叶斯方法早在1764年就已经发表,甚至贝叶斯本人当时都已经去世,这一方法沉默了二百年才在20世纪下半重新辉煌起来。以前的小众文章里很可能就埋藏着一些可以解决当下难题的方法。

二是提出新的问题,做出新的方法。格朗特于1662年出版的《观察》实际上并没有提出什么过于深刻的方法,但这些简单的描述性工作在当时确是开创性的。这些意义重要的发现,一旦说出来,都被人视为理所当然。

三是总结综述时可以采用一种更为清晰的方式表述前人研究。回归相关理论早就被高尔登提出,而后埃其渥斯更是将其进一步发展,但最后的结果却被归功于皮尔逊的名下,这是由于前面两个的表达方式都不够清晰明确,高尔登缺少数学描述,埃其渥斯的记号笨重,而皮尔逊将其整理后以一种更简洁的方式得到。

四是要广结人缘。与其说Student的学术天赋高超,倒不如他和当时的业界大牛有着广泛的交流,在皮尔逊和费歇尔产生分歧的时期,Student是弥合当时统计学家的重要力量,还成功地在1943年建立了“国际生物计量学会”,虽说当时皮尔逊已经去世7年了。另一个例子是,拉普拉斯在得知高斯的正态分布后提出了自己的中心极限定理,两者联系起来才将正态分布捧上了“王位”。

五是数理统计学的目的是解决实际工作中遇到的问题。费歇尔论文中经常使用到自己在罗瑟姆斯特农业试验站的数据,这使得他的论文具有很强的实用性,特别是诞生了统计学中的重要分支“试验设计”。

六是统计思想的方法上的创新要重要于数学上的正确与否。斯卢茨基于1917年提出运用皮尔逊的拟合优度思想来检验回归是否为线性的问题,他的论断在数学上是错误的,但却包含了方差分析的统计思想,这使得该文章可以影响后续的研究。

七是统计学不是一种纯数学理论,需要考虑实用性和经济性。斯坦因(C.Stein)于1956年在第3次伯克利概率统计讨论会上发表《多维正态分布均值常用估计的不容许性》,其中有着一个出人意料的结果,大概含义是:“本来估计a_1,...,a_p是p个不相关的问题。照常理,估计a_i只应用到与之有关的样本x_{i1},...,x_{in},而在这个场合下\overline x_i已知是一个良好的估计。现在斯坦因的结果告诉我们说,情况并非如此,在估计a_i时,除了使用x_{i1},...,x_{in}外,还要使用另外p-1组与之不相关的样本,才能得到更好的结果。这个说法与常理相违背。”

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容