多项分布与生态学

先说「二项分布(binomial distribution)」,因为它是多项分布的特殊情况。二项分布就是抛硬币。现投n次硬币,记正面朝上的次数为X_1,反面朝上的次数为X_2,每次投币正面朝上的可能性为\pi_1,反面朝上的可能性为\pi_2。最终,有x_1次实验硬币投出正面、有x_2次实验硬币投出反面的可能性为:

P\left\{ X_1=x_1, X_2=x_2|\pi_1,\pi_2,n \right\} =\frac{n!}{x_1!x_2!}\pi_1^{x_1}\pi_2^{x_2}

因为x_1+x_2=n\pi_1+\pi_2=1,该式也可化为我们更熟悉的形式:

P\left\{ X_1=x_1|\pi_1,\pi_2,n \right\} =\frac{n!}{x_1!(n-x_1)!}\pi_1^{x_1}(1-\pi_1)^{n-x_1}

「多项分布(multinomial distribution)」,简单来说就是投骰子。这个骰子可以不止有6个面(如果你见过那种神奇的多边形骰子的话;我甚至见过32个面的)。

有一种美,叫做数学演绎美,它让我们凭直觉写出正确的表达式——多项分布的联合概率分布:

P\left\{ X_1=x_1, X_2=x_2,...,X_m=x_m|\mathbf{π},n \right\} =\frac{n!}{x_1!x_2!...x_m!}\pi_1^{x_1}\pi_2^{x_2}...\pi_m^{x_m}

其中,\mathbf{π}=(π_1, π_2, ..., π_m)m表示骰子有多少面。

一、参数估计:π

有了统计分布,接下来干什么呢?也许是「参数估计」吧。这应该是最常规的想法。想想,是不是这样呢?通常,人们知道了模型的拓扑结构,下一步便渴望估计出模型参数,因为「拓扑结构」「模型参数」构成了完整的「模型」。神经网络、马尔可夫链……一个又一个模型,似乎都是如此。

那我们就用极大似然法估计多项分布的模型参数吧。将似然函数(联合概率分布函数)取对数:

log\ L(\mathbf{π})=log \ P\left\{ X_1=x_1, X_2=x_2,...,X_m=x_m|\mathbf{π},n \right\} = log(n!\prod_{i=1}^m  \frac{\pi_i^{x_i } }{x_i !} )

其中,x_1+x_2+...+x_m=n\pi_1+\pi_2+...+\pi_n=1。接下来,需要求该似然函数的驻点。

拉格朗日乘数法(lagrange multiplier method)

已经好久没有接触它了,既十分熟悉,又有点陌生。至少,它让我们怀念起大一时坐在教室里的那段时光。

它是一种求多元函数在一个或者多个约束条件下极值的一种方法。

对于函数f(x_1,x_2,...,x_m)和一组限制条件ψ_k(x_1,x_2,...,x_m)=0,要求该函数的驻点,可先构造拉格朗日函数:

L=f(x_1,x_2,...,x_m)+\sum_{k=1}^s λ_kψ_k(x_1,x_2,...,x_m)

计算拉格朗日函数的驻点,它就是原函数f(x_1,x_2,...,x_m)的最值怀疑点:

\left\{ \begin{gathered} \begin{matrix} \frac{∂L}{∂x_1}=0  \\ \frac{∂L}{∂x_2}=0 \\... \\\frac{∂L}{∂x_m}=0 \\\frac{∂L}{∂λ_1}=ψ_1(x_1,x_2,...,x_m) = 0 \\\frac{∂L}{∂λ_2}=ψ_2(x_1,x_2,...,x_m) = 0 \\... \\\frac{∂L}{∂λ_s}=ψ_s(x_1,x_2,...,x_m) = 0\end{matrix} \end{gathered} \right\}

对于多项分布的似然函数,求其驻点,满足:\frac{x_i}{\pi_i}=λ ,以及\sum_{i=1}^m π_i=1

将求得的驻点\frac{x_i}{\pi_i}=λ \sum_{i=1}^m π_i=1化简,得:\pi_i=\frac{x_i}{n} 。这非常符合直觉。也就是说,要估计多项分布的参数,我们直接多投几次骰子,统计下每个面出现的频率,就把多项分布的参数算出来了。

二、参数估计:m

有没有注意到,上述过程估计出了参数\pi_1,\pi_2,...,\pi_n,但还没有估计参数m。如果m未知,那么模型依然是不完全的。

如何估计m呢?

设想一下,现在投一个骰子,但骰子有几面是不清楚的。现在投n次,是否能够保证骰子中的每一面都能有露脸的机会呢?显然不一定。可能有几面(例如,4点)出现的频率特别高,有几面(例如,7点)出现的频率特别低,甚至有几面根本就没有出现。因而露脸的骰子面数m_{obs}和骰子真实的面数m是不能划等号的。

取而代之的是,会有f_0个面永远都不会露脸。

假设每个面i出现的概率为\pi_i,则每个面都有可能永不露脸,其概率为(1-\pi_i)^n

因而不露脸的面的数量的数学期望E(f_0)=\sum_{i=1}^m (1-\pi_i)^n。同理,

E(f_1)=\sum_{i=1}^m C_n^1 p_i(1-\pi_i)^{n-1}

E(f_2)=\sum_{i=1}^m C_n^2 p_i(1-\pi_i)^{n-2}

E(f_k)=\sum_{i=1}^m C_n^k p_i(1-\pi_i)^{n-k}

这样,我们想知道的m就等于观测到的露脸的面数m_{obs}加上E(f_0)。但我们只能从实验中测得\pi_iE(f_0)表达式本身还含有m,因此我们必须想办法把这个m弄掉。这在高中阶段,叫做不等式放缩。

根据柯西不等式,

[\sum_{i=1}^m (1-\pi_i)^n][\sum_{i=1}^m \pi_i^2(1-\pi_i)^{n-2}]≥[\sum_{i=1}^m \pi_i(1-\pi_i)^{n-1}]^2

也即,E(f_0)≥\frac{n-1}{n}\frac{[E(f_1)]^2}{2E(f_2)}

所以,m≥m_{obs}+\frac{n-1}{n}\frac{f_1^2}{2f_2}  f_1f_2的确是能够从数据中获得的。

生态学者看到这个式子应该都觉得十分亲切,因为它就是赵莲菊老师在1984年提出的生物多样性测度,后人称之为S_{chao1}统计量。这个统计量的使用频率就不用多说了,比如最近的一篇文章《The number of tree species on Earth》。

有了m\pi_i的估计方法后,多项分布就能很好地进行重建了。

三、生态学中的多项分布

生态学是一门研究与生命系统相关(≥个体水平)的各种模式及其成因的一门学科。生态学中的数据大到遥感,小到基因测序,对现实世界中的各种研究对象及其相关属性进行采样。

样地调查是生态学中最常见的数据收集方式。对一个区域进行物种调查,每个物种都有一定几率被发现。假定物种被发现的概率与其真实频率相同,那么物种被取到的概率就满足多项分布。

分子标记技术的发展为揭示生态学现象提供新的工具。在基因组中选取某个位点,这个位点出现A、T、C、G的可能性各不相同,满足多项分布。系统发育树构建时,选取s个物种,每个物种的每个位点都有A、T、C、G四种可能,那么对于单一位点,就有4^s种可能,这4^s种可能的概率分布满足多项分布。

无人机从空中飞过,拍摄出各种各样的景观:林木、林窗、水体……这也是多项分布。

估测多项分布有多少种,可以用S_{chao1}统计量;

估测每一项的概率,频率 ≈ 概率。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容