截至目前,无论是人的还是其他生物的,一些常见疾病还是模型都进行过转录组测序,而且测序数据已经上传至公共数据库,如果自己的研究中恰好需要一些组学数据支持,或者课题研究需要从组学寻找,那么最经济实惠的办法就是数据挖掘了。很多时候,分子学实验想要看基因在组学验证下的变化,如果已经有别人做的数据,直接就可以分析用,只是关注的基因不一样,没必要自己去测!
1、三大数据库
一般测序数据发文章都会上传至三大数据库,话不多说,先上链接:
生物信息三大数据:NCBI(https://www.ncbi.nlm.nih.gov/genome/)、 EMBL_EBI(https://www.ebi.ac.uk/)、NGDC(https://ngdc.cncb.ac.cn/)
NCBI大家应该很熟悉了,测序数据在其GEO数据库中:GEO数据库比较友好,基本会上传count数据或者表达矩阵,比较友好!
EMBL_EBI欧洲生物信息研究所:EMBL_EBI一般上传的都是测序的原始文件,例如FASTQ文件,如果需要挖掘则需要从头开始,要求较高!
NGDC国家基因组科学数据中心。近年来我国也越来越重视这一块了,现在很多国人的数据都会放在这上面。NGDC中的数据一般不公开,如果需要使用需要联系作者获得其同意!
三个数据库虽然不同,但是基本形式是一样的,上传的测序数据有原始数据,也有样本信息的metadata数据。数据库的检索要么按照关键字检索,要么通过数据集号检索!
2、以GEO数据为例,下载转录组数据
转录组数据分为两种,一种是芯片数据,一种是高通量数据,这两种数据分析方法不同,数据文件不同。我们分别为例,找两组数据看看其差别和具体内容。
芯片数据,直接在GEO中搜索<Pancreatic cancer, array>,选择一个合适的数据(我这里是随机选择的),选择了GSE125424。
从主页就可以看出样本的所有信息。
点击下载Series Matrix file即为其表达矩阵。这里需要注意一点。如果这个矩阵不完整,记得下载下方的RAW data,用这个数据去做。下载完的的数据打开发现,基因名为序号,所以还需要下载其注释平台的信息。
高通量数据,检索时可限定为<Pancreatic cancer, high throughput sequencing>样本信息和芯片数据一样,可以查看。数据下载方法也一样!
然而,这里有个问题我不得不提,光看数据主页的信息是不够的,样本信息也很重要,有时候我们需要做与性状的关联,所以还需要详细的样本信息。在页面的最底部,点击SRA Run Selector(很多网上的帖子很少提到这个信息)
转入之后,就可以看到详细的样本分组、处理等信息了,点击metadata即可下载。
除了这些数据库,还有很多数据库储存了数据,例如TCGA等等。但是分析的方法和要关注的基本信息是一致的,才能让数据发挥价值!
希望这个分享对你有用,多多支持关注!
之后转录组的可视化我们尽求其符合SCI发表要求,做CNS级别的图!
下节预告---数据降维(不仅仅针对转录组)