[ZHUHAI_Biotrainee]有关GEO实战分析的准备

经过思考,结合自己的实际情况,对于本周的学习,我设置了如下学习目标:
1、了解并熟悉与GEO分析相关的一些统计学知识
2、作图之前,必须从点、线、面的角度去思考有关PCA、热图、火山图等信息
3、熟悉以上之后,再进行实战
目标叙述完毕,下面总结今天我学到的内容。
—————————————START————————————————

一、统计学的相关知识

首推参考推文:https://mp.weixin.qq.com/s/OtB2h6f00U2SRZLzveJKfQ

第一部分

1、数据与变量
以R中的内置数据集为例:iris
先总体看一下:
可以看到150行,5列

str(iris)
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

再进一步入手,从行和列分别来看:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

有关变量的详细内容介绍,看推文
有关变量的总结如下:(A、B)
A、从列的方向开始看:
①定性变量
②定量变量(离散型变量、连续性变量)
B、从行的方向开始看:[除了第一行的其余全部行]
观测值

2、概率和随机变量
以硬币为例,涉及的三个统计学概念:随机性、随机变量、等可能事件

3、用R生成随机数
两个函数:
runif()
rnorm()
提升:若想保证随机数每次都一直,可以加set.seed(数字)

4、统计推断
统计推断是指由样本所提供的信息对总体数量规律做出推断。

第二部分

数据整理的一般描述

1、关于百分位数的理解,指的是一个位置而不是一个具体的数值

Eg1:
百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。

Eg:2
第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。若求得第p百分位数为小数,可完整为整数。

分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下:第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。

Eg3:
高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。
来个图理解下:

①我们一定要清楚,百分位数指的是位置,在R中我们会用到fivnum()函数,这个函数里面的25%,50%,75%(即上四分位数、中位数、下四分位数)指的就是位置!!! 你以为的数值那是均值,不是中位数,OK!
②应用百分位数的意义:在统计学中,统计分为描述统计以及推论统计。描述统计中你会想到用均值去评估整体,如果一组数据的整体大体都是很平均的,那么OK。如果一组数据中出现了极值,那么均值就不科学了。选择百分位数或者说在R中我们做箱图(利用的就是五分位数)是更为科学的去观察整理的数据情况,做到对数据心中有数,比如有没有极端值等等这样的问题。

2、四分位数
如图,要明确max、上四分位数、中位数、下四分位数、min以及四分位距(箱体的高)


箱图

3、数据离散程度的描述
变异、离均差、离均差平方和、总体方差、样本方差、标准差、样本标准差

第三部分

两个重要的概念:FC,logFC,P值

1、FC
A、FC为差异表达基因上调倍数,然后取log,logFC一般表达相差2倍以上是由意义的,放宽要求1.5倍或者1.2倍也是可以接受的
B、关于limma包差异分析结果的logFC解释见:http://www.bio-info-trainee.com/1209.html

2、P值
请先参考:https://www.jianshu.com/p/4c9b49878f3d
A、几个分界线:
P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异 。【P值越小,表明结果越显著。】
B、意义:
①P的意义不表示两组差别的大小,P反映两组差别有无统计学意义,并不表示差别大小。
②显著性检验只是统计结论。判断差别还要根据专业知识。抽样所得的样本,其统计量会与总体参数有所不同,这可能是由于两种原因。

二、PCA图

①降维
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量。
②PCA图输入的文件类型为数值型
③有关PCA
如果你对PCA的数学统计学知识想有更多的理解,请看:
https://blog.csdn.net/a8039974/article/details/81285238
https://blog.csdn.net/qq_24753293/article/details/80435463

研究一维数据,用方差、标准差
研究二维数据,用协方差
研究多维数据,用协方差矩阵>

对于初学者的我来讲,我通俗易懂的讲讲对于PCA的理解:
PCA的意义
①处理大数据游刃有余:当我们拿到一个很小的数据是,可能你通过肉眼就可以看出来什么因素是决定这个数据发生了质的飞跃,实现了数据的类群差异(也就是我们PCA中提到的主成分)。比如:划分成绩好和成绩差之间的差别 ,因素会有很多。但是通过数据反馈我们发现影响其差别的主要因素是的是学习成绩、学习能力,其余的比如环境等等还会有很多的因素,而这些就对于类群差异就不重要了 。那么,换言之,根据成绩、学习能力我们就可以把学生分成成绩好和成绩差两个类群。刚刚所提到的影响其类群的主要因素是成绩、学习能力,那么这两个因素也就是dim1、dim2。OK,刚刚是简单说的数据很小的情况,那么数据很大的时候怎么办?怎么划分呢?这就是我们需要主成分分析了。当数据很大的时候,我们选择降维,也就是用到了PCA
②检查数据是否存在差异:我们拿到一个数据就是自然是为了研究差异所在,所以对于拿到数据能否有可行性的操作就要用到PCA、热图去检查数据。


PCA图

分析:
根据我们对于数据的理解,作出了这个PCA图。
①关于其中的Dim1,Dim2在作图的过程中有提到,他的因素是什么。Dim后面跟的百分数是这个因素决定Groups之间差异的概率,也就是说,Dim1使得Groups之间发生差异的概率为62.7%,Dim2使得Groups之间发生差异的概率为14.8%。
②Dim1不仅仅只限制一个因素,而是好几个因素杂交在一起,所以多项思考Dim
③Groups的不同用了不同的颜色进行表示,可以发现 两个颜色之间的距离是很远的,说明两组之间的差异很大,研究有意义;如果在PCA图中显示两者的点有重合的现象,说明Groups之间有重合,差异小,那么我们需要审视该数据的研究价值。
④注意,PCA图表示的是组间的差异,而不是组内的差异!

三、火山图

注意安全 ,要先喷个图:


火山图

【注意】不是所有的logFC都是以2为底,只有利用limma时是以2为底的。若选择其他的包不是以2为底。

①该图中每一个小点代表一个基因
②黑色部分表示stable基因,红橙色部分代表down基因,蓝色部分代表up基因。
③判断up基因还是down基因是因为横坐标是log2FC,负值为down基因,正值为up基因。
④stable基因与down基因,以及stable基因与up基因之间的分界线是log2FC.就拿这张图来来说发现差异基因很多,我们可以利用R 看到up和down的个数。如果差异基因太多 ,后续进行GO以及KEGG分析的时候也会特别多,显示具体的通路就那么清晰了。so,如果想缩小差异基因的个数,可以调整log2FC的数值,比如log2FC=2

四 热图

说明:
①热图的输入文件类型为表达矩阵
②一般情况下,在一个表达矩阵中行表示基因名称,列表示样本名称;
③需要对表达矩阵做一系列的处理,比如关联,以及ID转换等
④当heatmap不清楚如何做,或者输入的数据不知道是怎样的时候,查看示例数据,找到示例数据的数据结构等,从而使我们的数据进行不断的处理。
⑤对热图的归一化,一般是要处理的。当对热图进行了归一化处理,我们就会避免因较大的基因数据而掩盖了比较小的数据,有碍我们观察差异现象。

热图

解释:
①heatmap图中六列分别代表了不同的样本,即六个GSM号
②heatmap图中横坐标表示一个基因在不同样本中的表达情况
③渐变色条表示基因表达量
④heatmap图中分出了两个组类

五、箱图

箱图

解释:
①每一个箱子代表一组数据的五分位数情况
②单看一个箱子代表一组数据的五分位数情况,如果箱体越扁,说明max与min的差异越小,代表组内的重复率越高
③一起看两个箱子,可以比较两组数据的五分位数,这样就可以发现两者之间的差异情况。如果两个数据的箱图五分位数差别很大,说明组间的差异很大,科研有价值。
很显然,这个图表示组间差异很大。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354