一. 简介
-
叶绿体是绿色植物,藻类和蓝细菌进行光合作用的场所,光合作用将水和二氧化碳转变为有机化合物并放出氧气。叶绿体所携带遗传物质DNA,以原核细胞的编码方式转录合成一些自身需要的RNA与蛋白质。叶绿体通过分裂方式增殖,通过细胞质遗传传递给后代(也叫母体遗传、单一亲本遗传、非孟德尔遗传等)。内共生起源学说认为叶绿体源于原始真核细胞内共生的蓝藻。
- 植物叶绿体由LSC, IR, SSC, IR四部分组成,为典型四分体结构,四分体结构翻转构造形成同分异构体,一般组装得到的叶绿体会得到两条序列,主要是SSC顺序的颠倒,可以通过比较选择顺序一致的序列进行后续分析。
参考文献: Palmer, Jeffrey D . Chloroplast DNA exists in two orientations[J]. Nature, 1983, 301(5895):92-93.
二. 组装
GetOrganelle是中国科学院昆明植物研究所金建军和郁文彬两位老师共同开发的质体组装软件,论文发表在Genome Biology,其中叶绿体基因组组装方法如下:
首先,通过conda安装GetOrganelle:
[abc@Server GetOrg]$ conda install -c bioconda getorganelle
安装完成后,下载参考序列库:
[abc@Server GetOrg]$ get_organelle_config.py --add embplant_pt,embplant_mt
注意:这里可能会出现报错:Bowtie2 is not available!,可以通过conda重新安装Bowtie2,然后升级到最新版本,如果不成功的话删除conda环境中的Bowtie2相关文件(rm ~/.conda/envs/getorganelle/bin/Bowtie2*),下载安装Bowtie2并添加环境变量中。
然后,运行 GetOrganelle(约2个小时左右):
[abc@Server GetOrg]$ get_organelle_from_reads.py -1 a.fq.gz -2 b.fq.gz -t 10 -o abc_plastome -F embplant_pt -R 10
生成文件中:embplant_pt.K85.complete(scaffolds).graph1.1.path_sequence.fasta和embplant_pt.K85.complete(scaffolds).graph1.2.path_sequence.fasta即为做得到的叶绿体基因组,其中K85表示选择的kmer为85,complete表明组装得到环状基因组,scaffolds或Contigs表示不止一条序列(未拼接成环)。一般GetOrganelle组装会得到两个环,graph1.1和graph1.2,这是因为存在同分异构体,可以通过和模式植物比较选择顺序一致的进行后续分析。
三. 注释
上文得到的叶绿体基因组可以利用在线软件GeSeq进行注释:
上传序列文件,勾选相关内容,其中输出格式选GenBank格式便于后续作图,然后点提交,运行完后下载GenBank注释文件。
注意:利用GeSeq得到的GenBank文件在后续“五. 边界可视化作图”的时候IRscope软件出现报错,后面试了另一个在线注释软件CPGAVAS,注释得到的GenBank文件IRscope不会报错。
CPGAVAS的具体教程参照:教程 | 使用 CPGAVAS2 进行叶绿体基因组注释。
四. 圈图和线图
利用在线软件Chloroplot进行叶绿体基因组作图:
可以选择输入Accession Number或上传GenBank 文件,这里我从NCBI下载 Manihot esculenta叶绿体基因组序列进行测试,利用前文GeSeq软件进行注释,得到GenBank 注释文件,和直接输入Accession Number:EU117376.1两种方式进行比较,结果基本一致:
另外,还有一个在线软件OGDRAW,可以画圈图或线性图,其中线性图更方便将多个图放一起进行比较,输入文件可以利用上文CPGAVAS注释软件输出的gbf文件,输出的线状图如下(线状图通过AI整合):
五. 边界可视化作图
IRscope是一种叶绿体基因组连接位点和边界区域基因可视化工具。
可以输入Accession No.或GeneBank注释文件,以拟南芥(NC_000932)和杨树(NC_009143)作为输入文件,结果如下:
注意:在比较分析时可能会出现LSC区域颠倒的情况,可以在组装的时候加上--reverse-lsc参数。
六. 构建进化树
通过上述四和五,同模式植物叶绿体基因组进行比较,确定合适的构型和对应的参数,比如:我在组装叶绿体的时候发现组装的两种构型都和杨树、拟南芥的顺序不一致,有一个比较接近但LSC顺序是颠倒的,这时通过金建军老师的提示,在组装的时候加上参数--reverse-lsc,这样就就得到和模式植物顺序较一致的序列,接下来就可以用叶绿体基因组构建进化树。
首先,将得到的叶绿体基因组合并成一个fasta格式的文件:
[abc@Server]$ ll|grep CRR|awk '{print"cat "$NF"/*complete.graph1.1.path_sequence.fasta >Result/"$NF"_1"}'|sh
[abc@Server]$ ll|grep CRR|awk '{print"cat "$NF"/*complete.graph1.2.path_sequence.fasta >Result/"$NF"_2"}'|sh
[abc@Server]$ cd Result/
[abc@Server]$ ll|grep xiaoxh|awk '{print"sed -i \0471i\\"$NF"\047 "$NF}'|sh
[abc@Server]$ cat * >abc_cp.fas
[abc@Server]$ more abc_cp.fas|grep -v '>'|sed 's/CRR/>CRR/g' >Tree.fas
主要通过awk和sh实现,先将生成的graph1.1和graph1.2 cp到一个文件夹并命名为_1和_2,然后利用sed在每个文件第一行加上新的序列名不带“>”,将所有序列合并,grep -v去掉旧的序列名,利用sed给新的序列名加上 “>”,方法可能过于繁琐。
然后,利用mafft进行多序列比对,利用iqtree建树:
[abc@Server]$ nohup mafft --auto Tree.fas >Tree.fas.mafft 2>Tree.fas.mafft.log&
[abc@Server]$ nohup iqtree -s Tree.fas.mafft -m MFP -bb 1000 -bnni -redo -o NC_010433 &