Chap 1 Generative Models for Dicrete Data
Goals for this chapter
-
在本章中我们将学习以下几个内容:
-- 学习如何从一个给定的模型中获得所有可能结果的概率,并看看我们如何将理论频率与实际数据中观察到的频率进行比较。
-- 探索如何使用泊松分布分析表位检测数据的完整示例。
-- 看看我们如何实验最有用的离散数据生成模型:泊松模型,二项式模型,多项式模型。
-- 使用R函数来计算概率和计数罕见事件。
-- 从指定的分布生成随机数。
A real example
- HIV(人类免疫缺陷病毒)基因组的突变是随机发生的,每个复制周期每个核苷酸的突变率为
。一个周期后,基因组中
个核苷酸的突变数量将遵循泊松分布,速率为5。这个概率模型预测,在一个复制周期中,突变的数量接近5,这个估计的可变性为
(标准误差)。我们现在有了一个典型的HIV毒株中看到的突变数量和它的变异性的基线参考值。事实上,可以在泊松模型5中建立一个
的事件,取泊松分布的速率参数的值
。
dpois(x = 3, lambda = 5)
0.1403739
这表明,恰好看到三次事件的几率约为,或约为七分之一。
如果我们想生成从到
的所有值的概率,我们不需要编写一个循环。我们可以简单地将第一个参数设置为这
个值的向量,使用R序列操作符
。
dpois(x = 0:12, lambda = 5)
0.006737947 0.033689735 0.084224337 0.140373896 0.175467370 0.175467370 0.146222808 0.104444863 0.065278039 0.036265577 0.018132789 0.008242177 0.003434240
barplot(dpois(0:12, 5), names.arg = 0:12, col = "blue")
Fig.1
对于突变等罕见事件,泊松分布是一个很好的模型。其他的离散事件概率模型有伯努利分布、二项分布和多项分布等。我们将在之后的内容中进行探讨。