1.zhangle(大论文)
所有SNPs变异经由 ANNOVAR软件进行注释,首先,经由两步建立华南虎基因组注释用的数据库,使用软件自带的脚本,将基因组注释文件进行转化,参数为“gff3ToGenePred genes.gff stiger_refGene.txt”;接下来,“retrieve_seq_from_fasta.pl -format refGene --seqfile stiger.fa stiger_refGene.txt”。针对所有SNPs变体的vcf格式文件进行格式转化,“convert2annovar.pl -format vcf4old”,生成可以用于进行软件注释的输入文件,在grantham.matrix 矩阵下,对注释到的非同义突(nonsynonymous)进行Grantham Score(Amino acid difference formula to help explain protein evolution)评分,来判定有害的非同义突变,其评分的原理是利用氨基酸的物理/化学组成进行估计,评分的标准为5 到 215。一般认为,Grantham 评分≥150 的突变被认为是有害的,而 Grantham 评分 <150 的突变被认为良性(Nonrandomness of point mutation as reflected in nucleotide substitutions in pseudogenes and its evolutionary implications)。
此外,使用 SnpEff (v4.3)(A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain)鉴定编码区中的 LOF 突变(功能性丢失突变)。首先需要基于华南虎的基因组和注释结果文件构建数据索引,参数设置为“java -Xmx40g -jar snpEff.jar build -gff3 -v south_tiger”。对输入的vcf变异文件,注释每个个体的SNPs并分配SnpEff 类别(参数,“Java -Xmx4g -jar snpEff.jar eff -c snpEff.config -v south_tiger”)。最后,我们将终止插入(stop gained)、剪接受体变体(splice acceptor variant)、剪接供体变体(splice donor variant)三者合并作为最终的 LOF 突变,并在获得的所有LOF注释条目中,提取存在50%以上转录本会受到影响的位点,参数“cat file.eff.vcf | java -jar SnpSift.jar filter "LOF[].PERC > 0.5”。
针对有害的 nsSNPs(Grantham Score > 150)和LOF遗传负荷结果的统计。我们参考了Feng(The Genomic Footprints of the Fall and Recovery of the Crested Ibis)等人的计数方法,用同源位点(纯合子位点计数为2,杂合子位点计算为1)的比例作为统计群体SNP数据中每个个体的遗传负荷。计算公式如下:
Ratio = 2 * homozygous sites / 2 * homozygous sites + 1 heterozygous sites
其中,纯化位点 = 每个个体的纯合等位基因(0/0或1/1)的数量,杂合位点 = 每个个体的杂合等位基因(0/1)的数量。
2.liyu穿山甲(Genomic consequences of population decline in critically endangered pangolins and their demographic histories)
我们使用SnpEff v.4.3t(A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff)将每个个体编码区的衍生等位基因突变分为错义突变和LOF突变。与Feng等人的策略The genomic footprints of the fall and recovery of the crested ibis类似,每个穿山甲物种的主要纯合等位基因(>占个体的50%)和其他穿山甲物种(作为外群)的相同纯合等位基因的基因型被用来代表祖先状态。我们根据两种穿山甲的注释和参考基因组序列建立了数据库。VCF格式的输入文件用于注释snp,并为每个个体的输入snp分配突变类别。LOF突变包括过早终止密码子(无义)和剪接位点中断的单核苷酸变异。评估每一类纯合子位点(每个位点两个)与纯合子和杂合子位点(每个纯合子位点两个,每个杂合子位点一个)的数量之比,以估计有害负荷The genomic footprints of the fall and recovery of the crested ibis;Genomic flatlining in the endangered island fox。
错义突变的危害性也通过格兰瑟姆评分(GS)[55]来诊断,这是一种衡量氨基酸变化的物理/化学性质的方法。Grantham评分≥150为有害(Amino acid difference formula to help explain protein evolution)。对于所有已鉴定的纯合LOF突变(种群间绝对等位基因频率差异>0.2)(Nonrandomness of point mutation as reflected in nucleotide substitutions in pseudogenes and its evolutionary implications),我们使用BLASTP基于人类基因组注释获得相关基因(e值≤1.0 × 10−10)(Historical genomes reveal the genomic consequences of recent population decline in eastern gorillas)。受LOF突变影响的基因的GO和KEGG功能富集基于DAVID数据库进行评估(Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources)。为了避免装配和注释工件对LOF结果的影响,我们还通过将这些结果与之前独立发表的两个基因组进行比较来证实这些结果(Scaling up pangolin protection in China)。
3.Zachary A(Long Runs of Homozygosity Are Enriched for Deleterious Variation)
为了预测一个变异等位基因是否有害,我们使用PolyPhen2程序。对于中性变异,我们认为同义位点和错义位点都是良性的。接下来,通过ROH区域的坐标,我们计算每个个体的ROH中预测的有害变异的数量。
可以和上面两个结合一下,利用上面的软件找到有害突变位点,再根据坐标对应到ROH片段中。
4.Trevor J. Pemberton(Genomic Patterns of Homozygosity in Worldwide Human Populations)
文中提到了一个计算ROH热点区域和冷点区域的公式:
Pall=nall / N
其中P为概率,nall为某个ROH在人群中的数量,N为总人口数。
根据公式划分ROH属于热点区域还是冷点区域,热点区域代表ROH在大多数个体中都有分布,导致遗传多样性降低,而冷点区域导致遗传多样性升高。文章中定义超过30.34%为热点区域;低于2.72%为冷点区域。感觉可以应用一下。