LTR_retriever: 一个更加准的LTR整合分析工具

背景篇

在植物基因组中,I类转座因子,LTR-RT(LTR retrotransposons)是基因组扩张的主要原因。完整的LTR长度在85~5000 bp之间,下图图A表示的是一个完整的LTR-RT,灰色框表示TSD(target site duplications), 红色三角形表示LTR motif(长度在2bp左右), 蓝色框表示LTR。LTR中间序列长度在1,000~15,000之间波动。

LTR-RT结构

完整的LTR-RT主要归为两大类: Gypsy和Copia。如果LTR中间的序列不包含开放阅读框(ORF), 那么所属的LTR-RT就无法独立的转座。

安装篇

LTR_retriever不是一个独立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的结果,过滤其中的假阳性LTR-RT,得到高质量的LTR-RT库。

先下载LTR_retriever本体

git clone https://github.com/oushujun/LTR_retriever.git

之后修改LTR_retriever下的paths, 提供BLAST+, RepeatMasker, HMMER, CDHIT这些工具的路径。

BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided

更加方便的安装方法用Bioconda安装好cd-hit repeatmasker, 然后下载LTR_retriever:

conda create -n LTR_retriever
source activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit
conda install -c bioconda/label/cf201901 repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h

此外你还需要额外安装LTRharvest, LTR_FINDERMGEScan_LTR

由于MGEScan_LTR装起来比我想象中麻烦,所以本文就仅使用LTRharverst和LTR_FINDER

使用篇

尽管LTR_retriever支持多个LTR工具的输入,但其实上LTRharverst和LTR_FINDER的结果就已经很不错了。

以拟南芥的基因组序列为例,分别使用LTRharverst和LTR_FINDER来寻找拟南芥中潜在LTR序列,之后用LTR_retreiver来合并结果。

#LTRharvest
gt suffixerator \
  -db TAIR10.fa \
  -indexname TAIR10 \
  -tis -suf -lcp -des -ssp -sds -dna
gt ltrharvest \
  -index TAIR10 \
  -similar 90 -vic 10 -seed 20 -seqids yes \
  -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
  -motif TGCA -motifmis 1  > TAIR10.harvest.scn &
# LTR_FINDER
ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 TAIR10.fa > TAIR10.finder.scn &

LTR_retriever支持单个候选的LTR,

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn

也支持多个候选LTR输入

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn -infinder TAIR10.finder.scn -threads 20

输出文件如下

运行结果

其他测试

LAI值是作者提出用于衡量基因组完整度参数。比较2个LTR输入和1个LTR输入的LAI值,后者是15.62,前者是14.47,这也意味这个值其实是受到输入的候选LTR数目影响,但最终结果应该稳定在一个阈值内。

我测试了多个物种在两种软件下找到的LTR,以及最终pass留下的LTR, 发现最终能够pass,数量都相对较少。同时限速步骤就是LTR_finder 和 LTRharvest。

物种 基因组大小 LTR_finder LTRharvest Pass LAI 测序技术
A. lyrata 206M 1456 1017 1044 20.39 Sanger
A. thaliana (TAIR10) 120 M 207 550 184 15.62 Sanger
B. rapa (2.5) 391M 1251 3182 520 0 PacBio + 二代20Kb 40Kb文库
B. rapa (3.0) 353 M 3515 3635 1968 7.16 PacBio + BioNano + Hi-C
C.rubella 135 M 643 600 144 10.96 454 + Sanger
A. alpina 336 M 3840 3107 2556 11.01 PacBio + BioNano + Hi-C
某物种A 454 M 5384 2789 4294 17.89 PacBio

还有一个有趣的现象,B. rapa 3.0版本尽管是最近用三代加Hi-C组装的基因,但是以LAI的标准,只能算是Draft级别, 当然也比2.5版本好出不少。

当然作者也对很多物种的多个版本组装进行了比较,下图来自于 Assessing genome assembly quality using the LTR Assembly Index (LAI)

基因组评估

如果使用该软件记得引用下面两篇文献

  • LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons
  • Assessing genome assembly quality using the LTR Assembly Index (LAI)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容