week10

week 10

常见概率分布

random.random返回的值不是真正的随机,在数学上被称作伪随机数,但是在实际运用中,和真正的随机数没有本质上的区别,可以忽略

独立事件

大数定律/伯努利定理:在独立可重复的实验中,
如果每次实验中出现某种特定结果的实际概率为p(例如,每次抛硬币正面向上的实际概率为
0.5),那么实验次数接近无穷大时,出现这种结果的比例与实际概率p之间的差收敛于0

大数定律并不意味着如果预期行为出现偏差,那么这些偏差会在未来被相反
的偏差“扯平”

方差

方差描述了集合中接近于均值的数值的比
例。如果很多值都非常接近均值,方差就会很小。如果很多值都非常远离均值,方差就会很大。
如果所有值都一样,方差就是0

标准差

方差描述了集合中接近于均值的数值的比
例。如果很多值都非常接近均值,方差就会很小。如果很多值都非常远离均值,方差就会很大。
如果所有值都一样,方差就是0

使用“标准差”这一概念考虑计算结果可信度和所需样本数量之间的关系

random.seed(0)保证了random.random使用的伪随机数生成器在函数每次运行
时都生成同样的伪随机数序列

变异系数

标准差除以均值所得的值称为变异系数
与标准差相比,变异系数的主要优点是,它可以用来比较具有不同均值的数据集合的离散程

一般来说,变异系数的值如果小于1,就可以认为方差很小。

概率分布
  • 离散分布
  • 连续分布
    • 正态分布
    random.gauss(mu, sigma)
    
    • 二项分布
    • 指数分布
    • 几何分布
      是指数分布的离散模拟
      假设你有一辆很旧的汽车,当你转动钥匙(或按下启动按钮)时,它只有50%的概率能够启动。几何分布就可以用来描述在成功之前尝试启动汽车的次数
    • 本福德分布
    • 对于一个十进制数的集合,如果第一位数字是d的概率符合P(d) = log10(1 + 1/d),就称它满足本福德定律
散列与碰撞

中心极限定理和理解

  • 足够大的样本
  • 样本均值 服从正态分布
  • 样本的均值可以用来估计总体的样本均值
  • 样本的方差可以用来估计总体的样本方差
中心极限定理的应用
即使总体的内在分布不是正态分布,我们也可以根据中心极限定理计算出置信水平和置信区间
置信区间

如果从一个庞大的总体中抽取了一个(任意大小的)独立样本,那么总体均值的最好估计
值就是样本的均值。对于某个规定的置信水平,置信区间宽度的估计要更复杂一些,它部分依赖
于样本大小。

样本多大才足够呢?这取决于总体方差。方差越大,需要的样本数就越多。

当总体分布近似于正态分布时, 30~40个样本已经足够大了。对于更小的样本,最好使用t分布计算置信区间。 t分布与正态分布很相似,但具有肥尾特点,所以算出来的置信区间要更宽一些。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Gradient Decent With Large Datasets Learning with large d...
    geekpy阅读 765评论 0 0
  • 标题1 标题2 *1*2*3 1 2 3 这是引用的内容
    额鹅呃阅读 138评论 0 0
  • 1 赣州的天气真的是一夜之间就变冷了的,昨天还在穿着短袖,今天就要穿上风衣了。席子的清凉在闹钟叫响之前叫醒了我,深...
    植澈阅读 429评论 0 0
  • 为有紫霞心里泪,年轻不是罪。 无奈人生宿命中,一悟便成空。 痛把山贼金箍换,成熟背夙愿。 世事如局身若尘,扑火为销...
    陶然忘机阅读 218评论 0 1