pasa安装记录和ORF提取

官方文档:https://github.com/PASApipeline/PASApipeline/wiki/Pasa_installation_instructions

之前尝试过很多的帮助,但都遇到了各种阻力,比如说没有root权限啊,各种环境变量的配置啊,不懂sqlite数据库啊

经过两个月的痛苦调研,最后依托conda完成了pasa主程序的使用

1.pasa环境

conda create -n pasa pasa

conda activate pasa 

conda install -y samtools=1.9

conda install -y samtools openssl=1.0

conda自带的pasa环境是有点问题的,经过对报错信息的搜索,修改这两步之后samtool就能正常使用了

2.输入数据

p84k.hq.fasta和poplar_84k_genome_v1.0.fa 

转录组和参考基因组 接下来要通过污染数据库来对p84k.hq.fasta纯化

3.配置UniVec数据库

wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec 

formatdb -i UniVec -p F

无法使用formatdb ,搜索发现makeblastdb也能达到一样的效果。正在探索参数

 makeblastdb -in UniVec -dbtype nucl -input_type fasta -parse_seqids -out UniVec

/PASApipeline.v2.4.1/bin/seqclean transcript.fasta -v /path/to/your/UniVec

可以得到p84k.hq.fasta.clean和p84k.hq.fasta.cln 这几个东西要在同一个文件夹下

4.编辑比对配置文件

cd pasa_conf

cp pasa.alignAssembly.Template.txt alignAssembly.config

vi alignAssembly.config


DATABASE=/tmp/mydb.sqlite  #在一个真实的文件夹下写一个虚拟的文件名

validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80

validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80

5.运行主程序

$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g poplar_84k_genome_v1.0.fa -t clustered.hq.fasta.clean -T -u clustered.hq.fasta --ALIGNERS blat  --CPU 1

经查,gmap的环境和conda是有冲突的,需要在conda的环境里注释掉gamp

所以我干脆在--ALIGNERS的参数里面只用了blat  

这里需要跑一段时间

输出包括mydb.sqlite.assemblies.fasta和mydb.sqlite.valid_blat_alignments.gff3 以及一大堆东西

6.提ORF

/home/caocao/miniconda3/envs/pasa/opt/pasa-2.4.1/scripts/pasa_asmbls_to_training_set.dbi 

 --pasa_transcripts_fasta mydb.sqlite.assemblies.fasta 

--pasa_transcripts_gff3 mydb.sqlite.valid_blat_alignments.gff3

得到的输出数据为fasta.transdecoder.cds,.pep,.gff3,.bed 和 fasta.transdecoder.genome.bed,gff3

genome.bed是一种注释信息的格式,在其中有那些基因的起始坐标和终止坐标。可以一定程度上得知ORF的位置和长度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容