肿瘤相关的甲基化高通量数据

image.png

DNA甲基化是一种参与了许多疾病与生物学过程的表观遗传标记,对于脊椎动物而言,常见的形式就是核苷酸5号位的胞嘧啶添加1个甲基(5mC), CpG含量丰富的启动子区域的甲基化状态当然就会影响基因的转录,而后是不是就可能影响基因的表达呢?再然后蛋白的的表达?继而生物学过程,疾病发生发展的过程啦,当然肿瘤也不例外。

在人的基因组中大约有2800万个CpG位点,高通量技术的诞生使得全基因组范围内的甲基化分析成为可能。提及高通量技术很容易联想到两类,即芯片与测序,两者各自都有优缺点。目前肿瘤甲基化数据主要来源于4种技术,包括基于测序的whole-genome bisulfite sequencing(WGBS),methyl-binding domain capture sequencing(MBDCap-Seq),reduced-representation-bisulfite-sequencing (RRBS)以及Infinium HumanMethylation450BeadChips (HM450, Illumina),通常称为甲基化450k芯片,即能检测45万个位点,当然甲基化芯片已经推出了850k(EPIC),能检测85万个位点。 在早期,甲基化分析仅仅局限于富含CpG的基因组区域,随着技术发展已经有多种技术扩展至整个基因组范围了,话不多说直接上图。


image.png

很明显,基于测序的技术检测的范围明显高于芯片,尤其是WGBS其检测覆盖度达到95%,再看看几种技术间的比较与检测范围,见下图。


image.png

即便基于测序的甲基化高通量技术检测的范围是如此的大,如此压倒性的优势胜过芯片技术,然而我们来看看肿瘤相关甲基化高通量数据的分布情况以及一些存储数据库资源:
image.png

看到这你是不是:


image.png

甲基化芯片的数据医以压倒性的优势胜过基于测序的甲基化数据,占据甲基化高通量数据的主导地位。连著名的TCGA项目都是以450k芯片检测的肿瘤甲基化谱,推测原因有二,一是甲基化芯片的性价比可能跟高些,一是测序数据的数据量极大,数据处理的难度也相应攀升。 当然,随着技术的不断成熟,费用降低以及处理数据的软件和方法的改进,将来测序数据是否大规模的增加,弯道超车,也未可知。

甲基化高通量数据库资源及网络工具

甲基化高通量数据来源主要包括大型项目的检测如,TCGA项目,还有全球各实验室的检测提交至公共数据库中存储。上图中已经列出了一些

存储数据库:

TCGA: https://cancergenome.nih.gov/

GEO: https://www.ncbi.nlm.nih.gov/geo/

Cancer Methylome System: http://cbbiweb.uthscsa.edu/KMethylomes/

ENCODE: https://www.encodeproject.org/

ArrayExpress: https://www.ebi.ac.uk/arrayexpress/

ICGC: https://dcc.icgc.org/

网络在线工具整理,也就是我们常说的神器,来看看神器长啥样吧:

MethDB****:****http://www.methdb.net/

PubMeth****:****http://www.pubmeth.org/

MethyCancer****:****http://methycancer.psych.ac.cn/

NGSmethDB****:****http://bioinfo2.ugr.es:8888/NGSmethDB/

DiseaseMeth****:****http://www.bio-bigdata.com/diseasemeth/

MethHC****:http://methhc.mbc.nctu.edu.tw/php/index.php

看一个神器长啥样吧:


image.png

有没有被亮到?这次就先到这里吧,关于甲基化数据的具体分析流程,神器的使用等等,详情请关注后续报道。

参考文献链接:http://www.cell.com/trends/genetics/fulltext/S0168-9525(13)00195-9

https://www.nature.com/articles/nrg3273

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容