一、基因芯片
基因芯片:由大量cDNA或寡核苷酸探针密集排列而形成的探针阵列,其基本原理是杂交测序方法。
cDNA芯片制作:通过克隆的方法获得目的cDNA序列,将其作为探针高密度固定在基质上制备cDNA芯片(探针的序列是已知的);然后从待检测的实验细胞和对照细胞中分别提取总RNA,由于RNA本身不稳定,而cDNA保存时间较长,因此,将mRNA反转录成cDNA,并分别用红色荧光分子和绿色荧光分子进行标记;接下来将两组cDNA样本等比混合,在一定实验条件下与芯片上的探针进行杂交,杂交完成后洗脱没有与探针互补结合的cDNA片段;最后,进行扫描,获得每个探针杂交后的荧光强度(基因表达谱)。
如果基因在两组细胞中表达相同,扫描后图形为黄色;如果表达不同,呈现红色或绿色。
寡核苷酸芯片:与cDNA芯片类似,主要通过碱基互补配对的原则进行杂交。早期合成的寡核苷酸片段可能存在降解的情况,从而导致最终检测质量的下降。
原位合成芯片:单通道芯片(了解)。
光纤微珠芯片:新一代芯片(了解)
——李霞《生物信息学理论与医学实践》
二、GEO数据库数据下载
https://www.ncbi.nlm.nih.gov/geo/
平台platform:描述检测方法,如芯片测序、高通道测序。GPL为代号。
样本sample:测序出来的丰度。GSM为代号。
系列series:样本组成的数据集。GSE为代号。
(1)百度NIBC GEO进入或者下面第二种方法
(2)进入pubmed主页,选择Resource,选择Gene&Expression,GEO Database进入GEO数据库(也可以直接在框中选择GEO datasets)。
(3)在搜索框里面输入“疾病LncRNA(以’hepatocellular carcinoma LncRNA’为例子)”,出现两个下拉选项:1.GEO Datasets Database 2.GEO profiles Database。选择第一个。(需要用药的,在后面加上药物名称)
(4)在如上界面中,左侧study type下面选择Express Profiles by array(表达矩阵)。
右侧Top Organisms下面选择五种。自己分析什么选择什么。
(5)选择需要的数据集。注意:最好样本量大于3个以上,选择正常组织与肿瘤组织对比。如果不想直接打开丢失之前页面,右键在新标签页打开。
(6)我们需要下载两种文件:1.Series Matrix File矩阵文件 2.Platform 平台文件
6.1矩阵文件有基因名字的,直接卸载。记住哪一样样本是(对照组)正常的,那些是癌症的(试验组)。
矩阵文件没有基因名字的,记住那些是自己需要的样本,下载好后用Excel打开文件,删除不需要的注释信息和样本。
6-2如果平台文件下面有Download full table则点击下载(GeneSymbol 指基因名字)
如果平台文件下面无Download,(没有基因名字),点击View,等文件缓冲完毕。
从ID的I前面开始,复制到最后,粘贴到新文本文件即可。
做芯片数据分析,我们可以从GEO数据库手动下载数据,再读入R中。也可以通过R命令下载,下一章介绍。