1.概述
ArrayExpress是功能基因组学(Functional Genomics)数据集的主要公共存储库之一,与GEO数据库类似。主要包括Microarray(微阵列芯片)和High-throughput sequencing(高通量测序)数据,也包括甲基化、CHIP-seq和基因分型(genotypping)等数据。
为支持可重复的研究,可以根据芯片实验的最低信息(MIAME)和测序实验的最低信息(MINSEQE)指南向ArrayExpress进行提交,这些标准支持科学数据的支持和重用。
ArrayExpress既包含GEO的所有数据,同时还包含ArrayExpress自身以及其他数据库如Expression Atlas、CCLE等多种数据,简直就是个大熔炉。
基于开放、包容的理念,EMBL-EBI(European Bioinformatics Institute)欧洲生物信息学研究院更是想收纳所有生物学信息实验的数据BioStudies.
BioStudies中有ArrayExpress模块,能与其实现无缝对接,不得不佩服EMBL-EBI的战略眼光!
2.数据结构
2.1 元数据(metadata)
(备注:MAGE-TAB: MicroArray and Gene Expression Tab,芯片基因表达制表符分割,一种支持MIAME的芯片数据简单格式,由Functional Genomics Data Society联合制定。)
ArrayExpress的主要研究对象是Experiment,每一个实验包含两个MAGE-TAB文件:
IDF:主要介绍整个实验的概述,类似SCI论文中的Abstract,包含标题、提交者的联系方式、出版物信息等。
SDRF:描述了所有的样本特征(如细胞类型、样本处理方式),并将每个样本链接到相应的数据文件。SDRF的结构(即列的顺序)反映了从原材料→中间步骤(如核酸标记、测序文库制备等)→原始数据→处理后数据的整个环节。
2.2 原始数据和处理后数据(raw and processed data)
ArrayExpress主要储存raw data和processed data,由于测序数据内容较大,其raw data(fastq数据)储存在ENA(European Nucleotide Archive);processed data(如BAM、normalised read count matrices)直接储存在ArrayExpress。
-
raw data
-
processed data:不同的芯片处理的方式不一样,大致包括背景矫正、log2转换、数据归一化等。可以根据Protocol REF查看处理的细节。
2.3 实验变量(The experimental variable)
每个实验metadata最重要的元素→实验变量。
主要描述实验的设计,即实验组和对照组,进行的什么处理。
3.搜索
自定义筛选条件
常用的高级检索缩写:
- organism: organism
- Experimental factor (experimental variable): ef
- the value of an experimental factor: efv,如efv:"diabetes" AND efv:"normal"
- the assay technology: exptype, 如 extype: "Transcription profiling"
- any attribute of the biological sample: sa
结果页面
点击某个实验后,可看到具体的信息
4.数据处理
4.1 芯片数据处理
每家芯片制造商通常会提供数据打开、分析其原始数据的文件,有几种常用的芯片下游分析的免费工具。如:Galaxy、GenePattern、R。
在芯片分析过程中,探针ID转换是必不可少的,查看Bioconductor可以发现有971个注释R包。
如果需要转换探针的数量比较少,可以直接用在线工具:DAVID.
但是当数据比较多时,怎么办呢?
幸好已经有大佬提前给咱们处理好了,推荐R包:AnnoProbe
一共包含185个平台的注释文件,基本解决80%常见芯片注释。
4.2测序数据
测序数据,需要质控、比对等步骤,对运算资源要求比较高,最好在linux下进行操作,差异分析一般用DeSeq2、edgeR。处理的数据包括RPKM/类似counts数据,可以类似芯片数据进行分析。
备注:有许多高质量的芯片和测序结果,被收录在Expression Atlas中,我们可以在ArrayExpress中搜索“Atlas”查看和下载基因表达情况。
参考链接:
ArrayExpress Discover functional genomics data quickly and easily