转录组分析(5) - 无参转录组拼接(illumina)

目的

NGS测序得到的短序列(read)存储于Fastq文件,在经过DNA建库和测序之后,文件中不同read之间的顺序就全部丢失了。因此,Fastq文件中紧挨着的两条read之间没有任何位置关系,它们都是随机来自于原本基因组中某个位置的短序列而已。因此我们无法判断Fastq文件中reads间的顺序关系。比对就是把每一条read分别与该物种的参考基因组或自身组装的长序列进行比较,然后按顺序排列整齐并记录其对应的位置。

做法

对于没有参考基因组的物种进行转录组测序,需要首先对测序reads进行拼接,然后才能进行比对这一过程。

Trinity是一种针对无参考基因组RNA-Seq数据构建转录本的工具,目前已经成为无参转录组拼接的首选方法。Trinity分为3个模块,分别为:Inchworm、Chrysalis和Butterfly。InchWorm模块将测序得到的reads按照kmer的方法连接成线性序列,Chysalis模块根据线性序列的重叠区建立graph components,最后Butterfly模块应用De Brujin graph方法拼接得到转录本。在Trinity拼接结果中,选取每个基因中长度最长的转录本作为Unigene,该Unigene就可以代表该基因的转录本用于后续的功能注释和表达量计算。
Trinity原理.png
安装

编译安装:
Trinity下载页面下载最新版本

wget https://github.com/trinityrnaseq/trinityrnaseq/releases/download/v2.12.0/trinityrnaseq-v2.12.0.FULL.tar.gz
tar -zxvf trinityrnaseq-v2.12.0.FULL.tar.gz
# 在基本安装目录中通过 make来编译安装Trinity

Anaconda 安装

conda activate py3
conda search trinity
conda install trinity
使用
Trinity --seqType fq --left reads_1.fq --right reads_2.fq --CPU 6 --max_memory 20G 

组装拼接结果保存在./trinity_out_dir/Trinity.fasta文件中,该结果用于后续的功能注释和表达量计算。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容