在Tiger讲这节课前没有预习,以前看的一些概念都有些想不起来了。在这里先让我啰嗦地复习一下重要的概念们。
随机变量以及随机变量的分类
以下概念摘自《漫画统计学》。
随机变量:一个随机变量是指一个随机实验的数值结果,记为X。例如一批产品中的次品个数。
随机变量的两种类型:离散型随机变量和连续型随机变量。
离散型随机变量:随机变量的所有可能取值都可以一一列举出来。
连续型随机变量:随机变量的所有可能取值充满某一区间,无法一一列举。
离散型随机变量的概率分布:离散型随机变量X的一切可能值以及它取相应值的概率二者一起,成为X的概率分布。
连续型随机变量的概率分布:通过概率密度函数的方式。正态分布就是常见的连续型分布。
几点要注意的:
- 如下图所示,任意两条与x轴垂直的线段f(a),f(b)与x轴以及曲线所围成的面积表示随机变量X取值在a和b之间的概率P(a≤X≤b)
- 密度曲线在a点处的高度并不反映X取a值的概率,但是这个高度越大,则X取a附近的值的概率就越大。
正态分布作业疑惑的部分
- 下面两行代码不明白:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
搜索的结果是:
要直接在 notebook 中呈现图形,应将内联后端与命令 %matplotlib inline 一起使用。
在分辨率较高的屏幕(例如 Retina 显示屏)上,notebook 中的默认图像可能会显得模糊。
可以在 %matplotlib inline 之后使用 %config InlineBackend.figure_format = 'retina' 来呈现分辨率较高的图像。
- 赛马比赛时间的作业关于arange中的step的不同取值(1和0.1)对比。
#概率密度函数
def normfun(x, mu, sigma):
pdf = np.exp(-((x - mu)**2) / (2* sigma**2)) / (sigma * np.sqrt(2*np.pi))
return pdf
#数据可视化
x = np.arange(145,154,1)
print(x)
y = normfun(x, mean, std)
plt.plot(x,y)
plt.hist(stake, bins=10, rwidth=0.9, normed=True)
plt.title('Stake distribution')
plt.xlabel('Stake time')
plt.ylabel('Probability')
plt.show()
#概率密度函数
def normfun(x, mu, sigma):
pdf = np.exp(-((x - mu)**2) / (2* sigma**2)) / (sigma * np.sqrt(2*np.pi))
return pdf
#数据可视化
x = np.arange(145,154,0.1)
print(x)
y = normfun(x, mean, std)
plt.plot(x,y)
plt.hist(stake, bins=10, rwidth=0.9, normed=True)
plt.title('Stake distribution')
plt.xlabel('Stake time')
plt.ylabel('Probability')
plt.show()
可以看出step取1时曲线很不平滑,找了好久原因才发现是因为step取的太大了。arange函数用于创建等差数组。用print(x)可以看出两个等差数组的区别,这也是很好的调试手段。
- 虽然这次还是用上次的hist函数,但是参数多了个"normed=True"。通过对比发现,加了这个参数柱子的高度由原来的频数变成了概率。具体这个值怎么计算的还不明白。下面这段话可以给我们一些启示,摘自Basic Data Plotting with Matplotlib Part 3: Histograms。
let’s try plotting things as a probability distribution instead of just frequency counts. This will let have matplotlib integrate the total area of the histogram (this is just the total number in the array we feed matplotlib), and scale the values appropriately so that rather than showing how many numbers in each bin, we instead have a probability of finding a number in that bin. The total area of the histogram in this curve will be 1.
plt.hist(gaussian_numbers, bins=20, normed=True)
- 感觉作业中最难的是对于数据的解读,也许就是Tiger所说的数据思维吧。自己在这方面还很欠缺。
正态分布的应用
学了正态分布有什么用处呢?我看到了在质量管理中的应用,摘自对正态分布应该如何理解和应用。
生产与科学实验中很多随机变量的分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的大多数属性和质量指标,如强力、抗压强度、口径、长度、光洁度、导电率等,都可以近似地用正态分布来描述;或者换句话说,如果生产条件没有出现变异,那么这些属性和质量指标的分布应该是正太分布或者是近似的正太分布。由此,我们就可以抽取一些样品(样本),基于样品的实际数据,用统计方法来推断所有产品(总体)的属性或质量指标是否服从正态分布。如果不是,则很可能是流程中出现了由特殊原因引起的变异;在进行很多质量分析之前,我们往往也需要对质量数据进行检验,看其是否服从正态分布。
对正态分布而言,离均值μ的距离为-3σ~3σ区域包含了全部数值的99.7%,因此常用6σ来代表较高的质量水平。