一万年没有更新的我,终于来更新了。实际上是因为觉得老师给的ppt有点乱,所以迟迟没有下手。懒人一直想要整理,最终还是没有整理。
总体参数
样本参数
正态分布的样本参数
正态分布:
正态分布的样本参数:
中心极限定理 Central limit theorem
设从均值为μ、方差为σ^2 (有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。
中心极限定理的应用
Suppose you only did one sample with same size (e.g., n = 30), how can you infer the population mean?
根据中心极限定理,样本Mean基本服从正态分布,根据Z-转化可以将该分布转化为标准的正态分布,即:
当 Z ~ (-1.96, 1.96),你可以覆盖95%的总体。
点估计和区间估计 Point Estimate& Interval Estimate
点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计
区间估计:参数估计的一种形式。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
置信区间(confidence interval):一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。具体地,对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数
常用的置信区间:
Infer the 95% confidence interval of the mean gene expression value of genes in genome from a random sample of 30 genes’ expression value.
A:1. Compute the average expression value and standard deviation of the 30 genes sampled(通过R进行随机抽样)
X= 6.495324, σ= 1.856473, n = 30
2.Apply CLT
3.In this case the population sd is known
CI = [5.830933, 7.159654]