在对动植物杂交种(或F1子代)的基因组和转录组的关联研究中,要回答这么一个问题:基因组变异到底与基因表达有什么关系?
这个问题很难,因为涉及影响基因表达调控的因素可太多了!多少科研人员围绕着这个问题研究毕生。
但不可避免的要做等位基因特异性表达(allele-specific expression, ASE)和基因表达顺反式调控的相关研究。
我因为首次接触这类分析,很窝火。查阅了一些资料,理解了一些概念,模仿了一些方法。记录整理下要点备忘,更希望后来者不要绕路。
1. 主要参考文献
1) 综述
Cis/trans:The evolution of gene expression in cis and trans
转录调控在杂种优势中的作用:The Role of Transcriptional Regulation in Hybrid Vigor
变异与表达:Molecular and evolutionary processes generating variation in gene expression;解读版:【NRG综述】分子和演化过程在基因表达中引发的变异
看完这些,基本了解了概念。
2)研究和方法
水稻PNAS——张启发、刑锋
无代码,自创的方法(SNP归并到gene level),较难复制。只研究了ASE,未研究cis/trans。
解读版:等位基因不平衡表达与水稻杂种优势;华中农业大学在杂种优势机理研究取得新进展
后续相同方法研究了甲基化对ASE的影响:
棉花NC——胡冠菁、包颖
有代码,较为友好。cis/trans分类费解,有点绕,要好好阅读理解后就好了。
Unraveling cis and trans regulatory evolution during cotton domestication;
解读版:Nature Commun. | 曲阜师范大学包颖团队揭示陆地棉驯化过程中的调控进化;
YouTube GCMonline:CGM 第131期 棉属多倍化与驯化历程中的顺反式表达调控进化;
CGM 第 23 期 Polyploidy and duplicated gene regulation, stories of cotton 棉花进化那些事儿
Gihub:https://github.com/Wendellab/CisTransRegulation
玉米MP——周鹏、Nathan M. Springer
有代码,不太好复制,也有点费解。同时分析了cis/trans和ASE
Dynamic Patterns of Gene Expression Additivity and Regulatory Variation throughout Maize Development
Github:https://github.com/maizeumn/atlas
Gitee:https://gitee.com/orionzhou/demo
玉米顺式元件预测胁迫反应PC(有代码),同一方法新作:
解读版:【Plant Cell】机器学习!应用顺式调控元件大数据预测玉米的冷热应激反应
Github:https://github.com/orionzhou/stress
水生植物莲Plant Mol Biol——武汉植物园
无代码,较简单,只研究了ASE,基本参考了棉花文章。
解读版:武汉植物园在热带莲和温带莲杂交品种F1组织中的偏向等位基因表达研究中获进展
土豆JIPB——黄三文
无代码,只研究了ASE,分析简单,参考了水稻方法。
The multi-omics basis of potato heterosis
看完这些,你就知道近几年别人是怎么研究这些东西的。当然其他动植物中也有研究的,但要么方法老旧和分析不严谨,要么发表的影响力不够。
个人建议参考以上棉花或玉米的分析方法,发表有依据,较权威。作者友好,有代码,不懂可问。
2. 分析要点
1)工具
没有统一的分析方法,网上有一些工具,但比较旧也不够权威,再没有理解的情况下不敢乱用。
https://github.com/pjx1990/as_analysis
https://github.com/Jiaxin-Fan/ASEP
https://github.com/liangjiaoxue/ASEtrans
https://github.com/TheFraserLab/ASEr
https://github.com/bmvdgeijn/WASP
https://github.com/evodify/allele-specific-expression
https://github.com/haojingshao/ASE-pipeline
https://github.com/dorolin/PybridASE
https://github.com/sanderslhc/Allele-Specific-Expression
https://github.com/edsgard/geneiase
其实得到转录组的vcf文件后,利用bcftools提取每个样本的两个等位基因的reads count(AD属性),或者GATK的 ASEReadCounter也可得到SNP水平的等位基因reads矩阵。
但经测试,bcftools提取出的reads和gatk做的结果还是有所不同,没有去找具体的原因和差异大小。最好还是用gatk来做。
SNP的reads count最终要归并到gene level,一般取和(或均值),再进行检验,可用DESeq2或卡方检验。张启发水稻的文章是分gene内的SNP来做的,这样不太方便跟cis/trans以及遗传模式等比较。
现在的ASE或者cis/trans没有比较规范的流程,大家都用自己创立的理论和方法。对于对本领域不熟悉的研究者建议还是借鉴别人权威发表的方法。
2)概念理解
ASE和顺反式调控的关系?
ASE词本身指代F1中的表达,但是现在ASE一般指顺反式研究的分析方法(另外一种是eQTL),是需要同时考虑亲本间差异和F1中等位基因差异,将二者进行比较区分顺反类别。早期的文章很多只考虑F1但不看亲本(即认为ase只是顺式调控的结果),可以提cis但是不够精细严谨,最近的工作应该比较少见了。个人觉得,如果做了更为具体的cis/trans分析,ase就没必要提了。
ASE或Cis/trans与杂种优势的关系?
等位基因特异性表达 (ASE)与起源效应的亲本密切相关,并受cis/trans复杂相互作用的调节,通常被认为在解释杂种和亲本之间的差异方面起着关键作用。具体要根据数据做卡方和Fisher检验(如棉花的做法)。
致谢:特别感谢中国农科院深圳基因组研究所得胡冠菁老师!