11.芯片数据GEO数据库下载

一、基因芯片

基因芯片:由大量cDNA或寡核苷酸探针密集排列而形成的探针阵列,其基本原理是杂交测序方法。


cDNA芯片制作:通过克隆的方法获得目的cDNA序列,将其作为探针高密度固定在基质上制备cDNA芯片(探针的序列是已知的);然后从待检测的实验细胞和对照细胞中分别提取总RNA,由于RNA本身不稳定,而cDNA保存时间较长,因此,将mRNA反转录成cDNA,并分别用红色荧光分子和绿色荧光分子进行标记;接下来将两组cDNA样本等比混合,在一定实验条件下与芯片上的探针进行杂交,杂交完成后洗脱没有与探针互补结合的cDNA片段;最后,进行扫描,获得每个探针杂交后的荧光强度(基因表达谱)。

如果基因在两组细胞中表达相同,扫描后图形为黄色;如果表达不同,呈现红色或绿色。


寡核苷酸芯片:与cDNA芯片类似,主要通过碱基互补配对的原则进行杂交。早期合成的寡核苷酸片段可能存在降解的情况,从而导致最终检测质量的下降。


原位合成芯片:单通道芯片(了解)。


光纤微珠芯片:新一代芯片(了解)

                                                                                                               ——李霞《生物信息学理论与医学实践》

二、GEO数据库数据下载

https://www.ncbi.nlm.nih.gov/geo/

平台platform:描述检测方法,如芯片测序、高通道测序。GPL为代号。

样本sample:测序出来的丰度。GSM为代号。

系列series:样本组成的数据集。GSE为代号。


(1)百度NIBC GEO进入或者下面第二种方法

(2)进入pubmed主页,选择Resource,选择Gene&Expression,GEO Database进入GEO数据库(也可以直接在框中选择GEO datasets)。


(3)在搜索框里面输入“疾病LncRNA(以’hepatocellular carcinoma LncRNA’为例子)”,出现两个下拉选项:1.GEO Datasets Database 2.GEO profiles Database。选择第一个。(需要用药的,在后面加上药物名称)


(4)在如上界面中,左侧study type下面选择Express Profiles by array(表达矩阵)。

右侧Top Organisms下面选择五种。自己分析什么选择什么。

(5)选择需要的数据集。注意:最好样本量大于3个以上,选择正常组织与肿瘤组织对比。如果不想直接打开丢失之前页面,右键在新标签页打开。

(6)我们需要下载两种文件:1.Series Matrix File矩阵文件 2.Platform 平台文件

6.1矩阵文件有基因名字的,直接卸载。记住哪一样样本是(对照组)正常的,那些是癌症的(试验组)。

矩阵文件没有基因名字的,记住那些是自己需要的样本,下载好后用Excel打开文件,删除不需要的注释信息和样本。

6-2如果平台文件下面有Download full table则点击下载(GeneSymbol 指基因名字)

如果平台文件下面无Download,(没有基因名字),点击View,等文件缓冲完毕。

从ID的I前面开始,复制到最后,粘贴到新文本文件即可。



做芯片数据分析,我们可以从GEO数据库手动下载数据,再读入R中。也可以通过R命令下载,下一章介绍。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容