疫情的爆发使得病毒基因组的研究呈现井喷式增长,其中有一部分研究是与进化相关的,病毒从何而来,病毒是否发生了进化等等一系列问题都被大家关注着。这里小Q介绍其中的一种分析--Network网络图分析。
分析用途
目前小Q接触Network分析,有以下几种使用环境:
- 用在自然选择分析研究中,一般在确定一段区域或基因受选择后,会想看下在单倍型上是否呈现同样的增长趋势,这会作为选择信号的一种展示,用图形的方式展示单倍型层面的增长。
我的理解: 单倍型层面的增长是基因组区域受自然选择的必要条件,而不是充分条件。
可参考的文献:
1)Loci associated with skin pigmentation identified in African populations
https://pubmed.ncbi.nlm.nih.gov/29025994/ - 构建mtDNA/Y 基因组的单倍型网络,探讨人群的起源
这块小Q接触较少,看到过一些文章,给2篇可参考的文献:
1)2013-Invest Genet-Inferring human history in East Asia from Y Chr
https://investigativegenetics.biomedcentral.com/articles/10.1186/2041-2223-4-11
2)Phylogenetic Network for European mtDNA
https://www.sciencedirect.com/science/article/pii/S0002929707610581 - 病毒基因组序列的单倍型网络,探索其起源与扩张
可参考文献:
1)Decoding the evolution and transmissions of the novelpneumonia coronavirus (SARS-CoV-2 / HCoV-19)using whole genomic data
http://www.zoores.ac.cn/en/article/doi/10.24272/j.issn.2095-8137.2020.022
软件介绍
- 小编较常用的软件是Network(https://www.fluxus-engineering.com/sharenet.htm),这款软件是免费开源的,可直接下载使用。它主要是计算单倍型之间的关系,并计算其在网络中的位置。
- 它还有一个收费的Network publisher,可以很方便的调整Node的颜色分区,对于后面图的展示帮助很大。这里不做介绍。
1)输入文件
我较为常用的RDF(Roehl Data File)文件,以此为例:
示例: 2个单倍型,5个碱基长度
空格空格;1.0
1;2;3;4;5;
10;10;10;10;10;
\>H_1;1;;;;;;;;
CCTCG
\>H_2;1;;;;;;;;
CCTCG
讲解:
1.1) 第1行
;1.0前面的2个空格必须要有,别问原因,问小Q也不知道,就知道不加就出错,哈哈
1.2)第2行
碱基(突变)位置,随意数字都可以,建议用基因组上的真实位置,这样后续分析可知道单倍型之间相差是哪些位置的碱基。
1.3)第3行
每个碱基的权重,一般这里我不做修改,默认都是10,关于如何修改这个值,感兴趣的伙伴可以看下官方说明。
1.4)第4行-第5行
第1个单倍型的名称和碱基序列
- H_1;1;;;;;;;;
这里,H_1是单倍型名称,必须是独特的 - 1:表示这个单倍型的频数为1
后面每一个分号前面都表示这个单倍型的属性,比如:所属物种,所属国家,所属时间等均可
1.5)第6行-第7行
第2个单倍型的名称和碱基序列
怎么做
- 准备好RDF文件