基因注释:PASA生成用于training的转录组文件

1.安装依赖项

1.1 gmap
wget -c http://research-pub.gene.com/gmap/src/gmap-gsnap-2021-12-17.tar.gz
tar zxvf gmap-gsnap-2021-12-17.tar.gz
mkdir gmap && rm gmap-gsnap-2021-12-17.tar.gz && cd gmap-2021-12-17
./configure --prefix=/path/gmap
make && make install
cd .. && rm -r gmap-2021-12-17
echo 'PATH=$PATH:/path/gmap/bin/' >> ~/.bashrc
source ~/.bashrc
1.2 blat
wget https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip
unzip blatSrc35.zip && rm blatSrc35.zip && cd blatSrc
uname -a #查看Linux版本类型,我的电脑是x86_64
export MACHTYPE=x86_64
mkdir -p ~/bin/x86_64
make 
echo 'PATH=$PATH:/home/bin/x86_64/' >> ~/.bashrc
source ~/.bashrc

2.安装PASA

wget https://github.com/PASApipeline/PASApipeline/releases/download/pasa-v2.5.1/PASApipeline-v2.4.1.FULL.tar.gz
tar zvxf PASApipeline-v2.4.1.FULL.tar.gz
rm PASApipeline-v2.4.1.FULL.tar.gz && cd PASApipeline-v2.4.1
make -j 8

3.运行PASA pipeline

输入文件:
●基因组序列:genome.fasta
●Trinity组装的转录组序列:transcripts.fasta
●(可选)transcripts.fasta中属于全长cDNA的序列名的集合:FL_accs.txt

cp $PASAHOME/pasa_conf/pasa.alignAssembly.Template.txt  alignAssembly.config
vi alignAssembly.config
# database settings
DATABASE=/tmp/database.sqlite #使用SQLite数据库
#若使用MySQL数据库,只指定名称,DATABASE=my_pasa_db
#script validate_alignments_in_db.dbi
validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80
validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80
#script subcluster_builder.dbi
subcluster_builder.dbi:-m=50
如果将DATABASE设为绝对路径(即 /path/database.sqlite),则使用SQLite数据库;若只指定数据库名称(即my_pasa_db),则默认使用 MySQL。
MySQL启用多线程,比SQLite速度快,但配置很麻烦(为PASA配置MySQL的教程:https://github.com/PASApipeline/PASApipeline/wiki/setting-up-pasa-mysql
运行PASA:
$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g reference.fasta  -t trinity.fasta --ALIGNERS blat,gmap --CPU 12

4.报错解决

(1)DBD::SQLite::db do failed: table URL_templates already exists at /path/PASApipeline-v2.5.1/scripts/create_sqlite_cdnaassembly_db.dbi line 62.
解决:rm /tmp/database.sqlite ,删除之前生成的同名数据库文件
(2)依然报错:
Can't exec "gmap":No such file or directory
试过很多方法,包括升级/降级gmap版本,均无效,所以--ALIGNERS选项删减为只有blat
正常运行,结果中的database.sqlite.assemblies.fasta和database.sqlite.pasa_assemblies.gff3用于提取ORF(开放阅读框)

5.从PASA组装中提取ORF

 /path/PASApipeline-v2.5.1/scripts/pasa_asmbls_to_training_set.dbi  --pasa_transcripts_fasta database.sqlite.assemblies.fasta --pasa_transcripts_gff3 database.sqlite.pasa_assemblies.gff3
生成一系列文件database.sqlite.assemblies.fasta.transdecoder.*
提取ORF生成的文件
......transdecoder.cds/pep/gff3/bed: 虽然不在基因组上,但是根据转录本信息,有可能是编码区的结果
......transdecoder.genome.bed/gff3: 对应基因组序列的基因模型,经格式转换后用于基因预测

参考文章:
blat下载与安装 - 简书 (jianshu.com)
PASA的使用 | 陈连福的生信博客 (chenlianfu.com)
解决:fatal error: openssl/ssl.h: No such file or directory_徊忆羽菲-CSDN博客
使用MAKER进行基因注释(高级篇之AUGUSTUS模型训练) - 简书 (jianshu.com)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容