Complete genome sequences ofStreptomyces spp. isolated from disease suppressive soils(Heinsch et al., 2019)在抑制病害土壤中分离的链霉菌的全基因组
一、摘要
二、综述节选
三、实验方法【现学现卖】链霉菌的全基因组分析(1)
四、结果
1. Isolation and phenotypiccharacterization of strains-菌株的分离和其表现特征
实验所用的三个菌株来自于有DSSs能力的土壤,且分离的菌株在对抗病原菌方面有很好的表现。其中Streptomyces sp. GS93–23对马铃薯疮痂病原菌和大豆疫霉抑制效果好,在田里帮助苜蓿抵御病害,对其有促生等作用,并且不会影响豆科根部根瘤菌的活动。Streptomyces spp. S3–4和3211–3前期研究发现有很强的产生抗生素的能力。
2. PacBio sequencing and assembly ofgenomes-基因组的PacBio测序与组装
原始基因组测序与组装在测序仪上进行(Pacific Biosciences(PacBio) RS single molecule sequencer),用Blue-Pippen对DNA大小筛选,然后三个菌株的DNA分别在三个SMRTcells里测序。得到的初始reads(initial read)用PacBio HGAP2算法组装(assembly),再用PacBio Resequencing algorithm优化,最终得到结果如Table 1。最终三个菌株测序的coverage均大于100×。
链霉菌GC含量高,很多地方GC聚集,所以碱基调用(base-calling)和序列组装时容易出错。所以实验还使用了Illumina sequence data来矫正错误。用Mi-seqinstrument收集2 × 250 base paired end reads序列,最后获得110-fold(3211–3), 118-fold (GS93–23)和155-fold (S3–4) coverage的基因组数据。用BreSeq算法将这些数据Mapping到PacBio产生的reference genomes,然后用Pilon算法处理SNPs和indels,最后从graft genome变成error-corrected genome序列。
3. Comparison of Illumina-corrected andPacBio-alone genome sequences-比较illumina改正前后的全基因组序列
通过illumina产生的short reads修正PacBio的拼接序列,产生的corrected genome与原来的相比,分别在三个菌株GS93–23, S3–4和3211–3中发现了70,295和335个SNP/Indels。
三个菌株的情况类似,大多数差异是在homopolymer stretches处(比如GC富集区)的单碱基插入问题。
因为两个NGS平台都会产生错误,所以下面就要证实,经过illumina矫正过的序列更加接近真实全基因组。以菌株S3-4为例,将295个SNP/Indels位置±150bp区域翻译为氨基酸序列,使用GenBank non-redundantdatabase进行比对,如果SNP/Indels导致移码突变,那么BLASTx的首行结果的E-value将会增大(不好的结果)。对S3-4的illumina矫正序列和原始PacBio初始组装序列进行上述实验,并且将其E-value做除法,其值作图如下(Figure S1),校正后的明显E值低(2倍),说明拼接组装得更好。而且两组BLASTx的首行结果的E值均值,矫正后的比原始的E值低了6个数量级(six orders of magnitude lower)。所以后续的实验均采用的校正后序列进行分析。
文章里出现的概念介绍请见公众号文章: