生物统计-置信区间与假设检验

概率基础

概率定义:重复多次试验,某个事件发生的概率。
条件概率:某一重复试验下,在B事件发生的概率下,A事件发生的概率。
贝叶斯概率:描述了P(E2|E1) and P(E1|E2)之间的关系。
离散变量的概率分布函数:pmf

  • 伯努利分布
  • 二项分布
  • 泊松分布

连续变量的概率密度函数:pdf

  • 正态分布
  • t-分布

统计推断

从样本数据推获得群体数据相关结论。包括以下两种方法:
置信区间估计

  • 点估计,根据样本统计值推断出接近群体该真实值的估计值,计算的置信区间(confidence interval,CI)用来反映该估计值与真实值的变异性。

【当sigma 未知时,以样本的方差代替,并利用t-分布计算置信区间。20次测序数据点估计置信区间图表明,20次试验估计值的置信区间95%概率下趋近真实值的分布,图中第6次实验估计结果远不接近真实值。】


假设检验

  1. 提出假设,零假设(相对更保守),备择假设
  2. 收集数据
  3. 选择合适统计量,依赖于你的假设对象,比较两个均值是选择Z-test或t-test,或检验两个类别型变量的独立性选择Fisher检验或chi-square检验。
  4. 选择显著性水平,通常是0.05,或0.01
  5. 确定在显著水平下用来拒绝零假设的critical value
  6. 计算检验统计值 test statistic
  7. 比较test statistic 和 critical value

P-value:被用于评价零假设与数据不相容的可能性,P越小,零假设与原始数据越不相容?相容可以指元数据并不符合正态分布假设或数据间并不独立或其他因素。

两类假设检验的错误

  • Type I,false positive,拒绝了实际为真的H0。该类错误依赖显著性值alpha,其值越小,犯错误可能性越低。
  • Type II,false negative,当零假设为假时没有拒绝零假设。应用功效性评估假设的效果,功效值越大,假设检验结果更好。
    【应当首先避免犯一类错误的可能性,其次考虑二类错误。只有增大样本数据量,才能最大程度避免犯两类错误的可能。】

两个类别型变量的chi-square test
有点难,先放一放。

【假设检验的思想就是,对待分析样本根据提出的假设,借助统计分布推断是否拒绝零假设。引入的p值,是对检验结果的另一个评价值。】

非参数检验
t-test 的一个前提是,数据服从正太分布,当一类、二类错误被尽量控制时,虽然数据并不完全是正态分布,其检验结果仍不会有很大偏差。参数检验可以理解为,分析数据能够通过参数决定的分布来描述,而非参数检验则与之相反。

非参数检验包括以下几种:

  • Wilcoxon-test: 零假设为数据呈现对称分布。分为单样本、双样本,或pair,unpair 类型检验,在实现函数的相关参数部分根据需要进行更改。
Wilcoxon检验
  • Fisher 精确检验:列联表式精确检验。

相关性非参数检验
也就是评估样本中变量间的内在关系,也可以理解为变量间独立性的检验。包括pearson 相关系数,Kendall's tau 和Spearman's rho,后两种为非参数的相关性检验方法。

常用的检验方法包括以下几种:

  • pearson 相关性系数:是一种最简单的判断方法,但是其只适用于线性关系和数值型数据。是一种参数检验方法。
  • Kendall's tau:当Kendall's tau值大于零是,彼此正相关,否则为负相关。

  • Spearman's rho: 直接对X,Y变量的值的排序值进行相关性评估。
    【相比于pearson 相关系数,后两种方法主要有一下几点优势:1. 即使数据做了一些变化,仍能反映变量间真实的相关性;2. 一般而言,非参数检验结果更好。】

Kendall's tau vs. Spearman's rho

其他内容PPT

概率回顾


条件概率

全概率公式

贝叶斯公式

离散型变量概率分布函数





连续型变量概率密度函数

正态分布


点估计


点估计置信区间与真实值变异性

sigma 未知的均值估计



假设检验






假设检验实例




test statistic 远大于critical value,reject H0

P-value







最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容