GEO数据挖掘看老大哔哩哔哩
看了三遍了,随着理解,后续还要更新这篇记录,现在还太不全,有些还没跟上,代码随着理解要往上填...
0.GEO数据挖掘视频课程之序言
使用R语言完成表达芯片处理全流程视频上线
R来完成表达芯片分析全流程
生信技能树论坛-研究热点板块介绍-芯片处理
老大github
1.通用文献阅读及规律
installation of necessary packages, downloading of cel files, describing the experiment, loading and normalizing data, quality controls, probe set filtering, finding differentially expressed probe sets, and finally annotating those probe sets to gene symbols.
转录本和基因有对应关系,一个基因可对应多个转录本(探针),原因有可变剪切:
可变剪切differential splicing,也叫做选择性剪切alternative splicing, 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质,示意图如下
根据文章中给出的GSE号,去GEO网址,在链接后更改GSE号,获得表达矩阵,芯片数据一般都用LIMMA包,illuminaHI-seq测序芯片出现
背景知识:
p值<0.01,|log2FoldChange|>2找差异基因
2.了解GEO数据库
1.文献中的共性:找到数据集,下载数据,进行差异分析,GSEA及其他数据库的注释。
2.找到探针对应的基因名
3.每一个数据集(GSE)有很多sample(GSM)
芯片基础知识
4.一个GSE可以有多高平台(GPL)
3.数据下载的3种方式
找到数据集后,数据下载方式(3种),目的得到表达矩阵
1.直接下载raw data,但不推荐大家用,原始数据
2.下载表达矩阵 series matrix file(s),下载后可读到R里面
a=read.table('GSE42872_series_matrix.txt.gz')
> class(a)
[1] "data.frame"
> str(gset)
3.在R里面读取GSE号.
gset <- getGEO("GSE42589")
加载GEO包
library(GEOquery)
gset <- getGEO('GSE42872',destdir=".",AnnotGPL = F,getGPL = F) #为了
getGEO读进来就是一个对象
文件只有两种:文本和非文本
分割分本:”空格“分割:read.tab
”逗号“分割:read.csv
新版的affymetrix对应oligo包
illumina相关芯片对应lumiR.batch
4.ID转化技巧大全
class、str这样的函数多打,对象可以用str看一下
http://www.bio-info-trainee.com/1399.html
http://www.bio-info-trainee.com/3415.html
> str(gset)
List of 1# 是list
> gset[[1]]
library(hgu95av2.db)
ids=toTable(hgu95av2SYMBOL)
length(unique(ids$symbol))
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
plot(table(sort(table(ids$symbol))))
5.了解你的表达矩阵
pData:得到每个样本的描述信息,下载的是对象就用pData来找
Group list:三个ctr,三个sample
6.差异分析
exprSet #表达矩阵
dim(exprSet)#查看多少个基因和样本
group_list #分组信息
7.火山图及热图制作及美化
gene=head(nrDEG,10000)
log2 fold change达到一定阈值才认为差异显著
火山图
plot(nrDEG$logFC,-log10(nrDEG$P.Value))
差异分析得到的结果注释一文就够
看包的说明书
vignette('clusterProfiler')
8.KEGG-GO等数据库的注释及GSEA分析
9.收尾的几点建议
10.批量生存分析代码大放送
生信人的20个R语言习题http://www.bio-info-trainee.com/3409.html
生信人的20个R语言习题答案http://www.bio-info-trainee.com/3415.html