学习安排(8月9日-8月10日)
1.主要学习视频Week3
链接(http://www.xuetangx.com/courses/MITx/6_00_2x/2014_T2/courseware/d39541ec36564a88af34d319a2f16bd7/)
2.辅助内容:教材第15和17章
随机程序、概率与分布
统计推断
统计推断的指导原则就是:一个从总体数据中随机抽取的样本往往可以表现出与总体相同的特性。
大数定律(也称为伯努利定理):在独立可重复的实验中,如果每次实验中出现某种特定结果的实际概率为p(例如,每次抛硬币正面向上的实际概率为0.5),那么实验次数接近无穷大时,出现这种结果的比例与实际概率p之间的差收敛于0。
值得注意的是,大数定律并不意味着如果预期行为出现偏差,那么这些偏差会在未来被相反的偏差“扯平”,尽管太多的人都是这样认为的。这种对大数定律的滥用称为赌徒谬误。人们经常将赌徒谬误与均值回归混淆。 均值回归说明,如果出现一个极端的随机事件,那么下一个随机事件很可能就不是极端的。如果你将一个均匀的硬币抛了6次,每次都是正面向上,那么均值回归就意味着如果再抛6次硬币,结果就非常可能接近3次正面向上这个期望值。而不是像赌徒谬误那样,认为在下一个抛掷序列中,正面向上的概率要小于反面向上的概率。在很多工作中,成功既需要能力,也需要运气。能力决定了均值,运气则导致了方差。运气的随机性解释了均值回归。
方差描述了集合中接近于均值的数值的比例。如果很多值都非常接近均值,方差就会很小。如果很多值都非常远离均值,方差就会很大。如果所有值都一样,方差就是0。
一个数值集合的标准差是方差的平方根。尽管它包含的信息与方差完全相同,但标准差更容易解释,因为它与原始数据的单位是一致的。
标准差除以均值所得的值称为变异系数。当我们比较具有不同均值的数据集合时(比如本例) ,变异系数比标准差更合适。并不是说变异系数总是比标准差更有用处。如果均值接近于0,那么均值的一个微小改变就会导致变异系数发生非常大(但不一定有意义)的变化。而且均值为0时,变异系数是没有意义的。
概率分布
根据随机变量是离散型的还是连续型的,概率分布可以分成两类:离散型概率分布和连续型概率分布。 离散型随机变量的取值是一个有限集合,如掷骰子的结果; 连续型随机变量的取值可以是无限的,可以是两个实数之间的任意一个实数。例如,汽车的行驶速度可以在0英里/小时和最大行驶速度之间。
离散型概率分布很容易描述,因为变量取值是有限的,所以只要简单列出每个值的概率即可描述这种分布。连续型概率分布则更复杂一些。因为有无限多个可能的取值,所以连续型随机变量取某个特
定的值的概率通常为0。数学家们喜欢用概率密度函数(probability density function)来描述连续型概率分布,并经常将其缩写为PDF。 PDF描述了一个随机变量位于两个数值之间的概率。
正态分布
正态分布(又称高斯分布)由以下概率密度函数定义:
P(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
这里\mu表示均值,\sigma表示标准差。
正态分布在均值处达到最大值,并在均值两下·x侧对称地减小,逐渐趋近于0。使用Python程序非常容易生成正态分布,调用函数random.gauss(mu, sigma)即可,这个函数会从一个均值为mu、标准差为sigma的正态分布中随机返回一个浮点数。
正态分布的一个良好特性是均值和标准差的独立性,如果想包括固定比例的数据,那么从均值开始所需的标准差个数是一个常数。举例来说,大约68.27%的数据都位于距均值1个标准差的范围内,大约95.45%的数据位于距均值2个标准差的范围内,大约99.73%的数据位于距均值3个标准差的范围内。人们有时将这种情况称为68-95-99.7法则,但更多时候将其称为经验法则。
均匀分布
均匀分布可以是离散型的,也可以是连续型的。 连续型均匀分布也称为矩形分布,它的特点是所有长度相同的区间都具有相同概率。
我们可以使用一个参数完全描述出连续型均匀分布的特性,即它的范围(也就是最小值和最大值)。如果可能取值的范围是min-max,那么一个值落入x~y的概率可以由以下公式给出:
P(x, y) = \begin{cases} \frac{y-x}{max-min} &\text{if $x≥min$ 且 $y≤max$x} \\ n+1 &\text{其他} \end{cases}
调用random.uniform(min, max)可以生成一个连续型均匀分布的值,它会返回在min和max之间随机选择的一个浮点数。
离散型均匀分布描述的是,结果不是连续的而且每个结果发生的概率完全相同的情况。我们可以使用下面的公式来完整地描述离散型均匀分布:
P(x) = \begin{cases} \frac{1}{|S|} &\text{if $x \in S$} \\ 0&\text{其他} \end{cases}
这里的S是可能出现的结果的集合, |S|是S中的元素数量。
二项式分布与多项式分布
只能在一个离散集合中取值的随机变量称为分类变量,也称名义变量或离散变量。如果分类变量只可能有两个值(如成功或失败),那么这时的概率分布就称为二项式分布。可以将二项式分布理解为n次独立实验中正好成功k次的概率。如果单次实验成功的概率为p,那么n次独立实验中正好成功k次的概率可以由以下公式给出:
\left(C^k_n\right)p^k(1-p)^{n-k}
多项式分布是二项式分布的推广,用来描述取值多于两个的分类数据。如果在n次独立实验中,每次实验都存在m个具有固定概率的互相排斥的结果,那么这时候适用于多项式分布。多项式分布可以给出各种结果的任何一种组合发生的概率。
指数分布和几何分布
指数分布非常常见,它经常用来对两次输入的时间间隔进行建模。例如,汽车进入高速公路的间隔时间和访问网页的时间间隔。
在Python语言中,生成指数分布非常容易,调用函数random.expovariate(lambd)即可, 这里的lambd是想得到的均值的倒数。如果lambd是个正数,函数会返回0和正无穷大之间的一个值;如果lambd是个负数,则返回负无穷大和0之间的一个值。
几何分布是指数分布的离散模拟,经常用于描述在第一次成功(或第一次失败)之前所需的独立尝试次数。举例来说,假设你有一辆很旧的汽车,当你转动钥匙(或按下启动按钮)时,它只有50%的概率能够启动。几何分布就可以用来描述在成功之前尝试启动汽车的次数。