week10

week 10

random.random返回的值不是真正的随机，在数学上被称作伪随机数，但是在实际运用中，和真正的随机数没有本质上的区别，可以忽略

独立事件

大数定律/伯努利定理：在独立可重复的实验中，
如果每次实验中出现某种特定结果的实际概率为p（例如，每次抛硬币正面向上的实际概率为
0.5），那么实验次数接近无穷大时，出现这种结果的比例与实际概率p之间的差收敛于0

大数定律并不意味着如果预期行为出现偏差，那么这些偏差会在未来被相反
的偏差“扯平”

方差描述了集合中接近于均值的数值的比
例。如果很多值都非常接近均值，方差就会很小。如果很多值都非常远离均值，方差就会很大。
如果所有值都一样，方差就是0

使用“标准差”这一概念考虑计算结果可信度和所需样本数量之间的关系

random.seed(0)保证了random.random使用的伪随机数生成器在函数每次运行
时都生成同样的伪随机数序列

标准差除以均值所得的值称为变异系数
与标准差相比，变异系数的主要优点是，它可以用来比较具有不同均值的数据集合的离散程
度
一般来说，变异系数的值如果小于1，就可以认为方差很小。

即使总体的内在分布不是正态分布，我们也可以根据中心极限定理计算出置信水平和置信区间

如果从一个庞大的总体中抽取了一个（任意大小的）独立样本，那么总体均值的最好估计
值就是样本的均值。对于某个规定的置信水平，置信区间宽度的估计要更复杂一些，它部分依赖
于样本大小。

样本多大才足够呢？这取决于总体方差。方差越大，需要的样本数就越多。

当总体分布近似于正态分布时， 30~40个样本已经足够大了。对于更小的样本，最好使用t分布计算置信区间。 t分布与正态分布很相似，但具有肥尾特点，所以算出来的置信区间要更宽一些。