【泛基因组】ppsPCP :植物存在/缺失变异鉴定

文献:Muhammad Tahir ul Qamar, Xitong Zhu, Feng Xing, Ling-Ling Chen. ppsPCP: A Plant Presence/absence Variants Scanner and Pan-genome Construction Pipeline. Bioinformatics, 2019.

在原核生物的泛基因组研究中早早已经有很多工具被设计并使用。对于植物来说,由于其基因组比较复杂,比较大,一直没有很完善的流程被设计出来。该推文主要和大家介绍植物泛基因组流程ppsPCP。它能够扫描存在/缺失变异(PAV)并构建完全注释的泛基因组。该工具将有助于植物泛基因组研究,并帮助我们研究基因的存在、缺失变异与遗传/表型变异和基因组多样性的联系。当然该工具应该也适合其它物种关于存在/缺失变异和构建泛基因组的研究。

总的来说,ppsPCP主要包含十步:

 

  1. 全基因组de novo assembly,然后每个材料的全基因组和参考基因组比对去找出新的non-references的序列。这一步会使用到MUMmer。

  2. 比对的结果回用于扫描PAVs,最短的PAV长度是被定义为100bp。

  3. 为了确认这些PAV,BLASTn用于在参考基因组上搜索这些PAV序列,确认他们是存在/缺失。

  4. 将上面BLASTn的结果用来判断PAVs序列可不可信,分别有两种情况:1)与参考序列非常接近(相似度>=95% 和该片段>=90%的序列被覆盖到),这种情况下,这些高度相似的片段会被过滤掉。2)PAVs序列在参考基因组中找不到。另一句话说他们是缺失的。要被选出来。

  5. 这些被选出来的PAVs,进一步和query片段比较,如果他们是重叠的,就进而延长他们。

  6. 所有被挑选出来并延长的PAVS片段,会挪到一起,每个片段之间使用100bp的N-bases相连.然后准备进行注释

  7. 最后这些新的PAVS片段和参考基因组就组成了泛基因组。

  8. 每个材料的基因组和参考基因组比对使用BLAT工具。

  9. 提取的基因区域是从query基因组和新生成二代PAV基因组中挖掘出来的(第五步中的结果)。

  10. 一个完整的基于参考基因组的泛基因组,是通过合并PAVS序列文件及其与参考基因组的注释来构成泛基因组的。

===工具以及依赖包安装====

ppsPCP的安装简单地从git hub上拷贝下来就好了

git clonegit@github.com:Zhuxitong/ppsPCP.git

export PATH=/path/to/ppsPCP/bin/:$PATH

依赖包

MUMmer

这里一定要下载并使用 Mummer-4.0.0beta2的版本,如果使用其它版本,很多用户说测试是会报错的。估计这个工具写的时候,是按照只适用于该版本的Mummer进行编写的。

wget https://github.com/mummer4/mummer/releases/download/v4.0.0beta2/mummer-4.0.0beta2.tar.gz

tar -xvzf mummer-4.0.0beta2.tar.gz

./configure --prefix=/path/to/installation

make

make install

export PATH=/path/to/installation/:$PATH

Blast+

 

经我测试对版本没有绝对的要求,如果你系统已经按照好了旧的blast+,依然是可以运行的。我自己以前安装过了,所以这次就不安装了。

Bedtools

这里我要说,这个bedtools一定要使用最新的版本,使用bedtoolsv v2.5 结果就是无论怎样,运行到最后一步bedtools要index fasta这一步都会出错。

Blat和gffread

这2个好像对版本要求不大。我是conda安装的。

conda install blat -c bioconda

Perl module

安装bioperl这个模块,因为这个工具其中的几个脚本都有调用到这个模块。

===例子测试===

其实,ppsPCP的运行很简单:

使用其提供的example文件进行测试:

perl ../bin/make_pan.pl --ref Zmw_sc00394.1.fa --ref_anno Zmw_sc00394.1.gff3 --query Zjn_sc00188.1.fa --query_anno Zjn_sc00188.1.gff3

一共生成了两个文件: pangenome1.fa 和pangenome1.gff3。

其中:pangenome1.fa就是该测试数据所生成的泛基因组,其由参考基因组Zmw_sc00394.1.fa和另一个isolate Zjn_sc00188.1.fa组装中和参考基因组不相同的序列组成(相当于non-refernce sequences,Zjn_sc00188.1 isolate中独有的基因)。从长度中我们也可以看出:

pangenome1.gff3就是由参考基因中的基因注释加上只存在于Zjn_sc00188.1中的PAVS 基因(存在/缺失)注释共同组成。

当然ppsPCP也支持多个query。如果有多个query的时候,将会输出pangenome1.fa,pangenome2.fa等。最后一个将是最终的pangenome。

===拟南芥和水稻例子测试===

拟南芥和水稻例子下载地址:

http://cbi.hzau.edu.cn/ppsPCP/files/rice_ppsPCP.tar.gz

http://cbi.hzau.edu.cn/ppsPCP/files/arabidopsis_ppsPCP.tar.gz

水稻运行(这里是有多个query的):

perl ../../../bin/make_pan.pl -ref Nipponbare.fasta --ref_anno Nipponbare.gff3 --query Shuhui498.fa --query_anno Shuhui498.gff3 --query Minghui63.fa --query_anno Minghui63.gff3 --thread 40

可以看出有pangenome1.fa,pangenome2.fa两个文件。

本文使用 文章同步助手 同步

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容