pasa安装记录和ORF提取

官方文档：https://github.com/PASApipeline/PASApipeline/wiki/Pasa_installation_instructions

之前尝试过很多的帮助，但都遇到了各种阻力，比如说没有root权限啊，各种环境变量的配置啊，不懂sqlite数据库啊

经过两个月的痛苦调研，最后依托conda完成了pasa主程序的使用

1.pasa环境

conda create -n pasa pasa

conda activate pasa

conda install -y samtools=1.9

conda install -y samtools openssl=1.0

conda自带的pasa环境是有点问题的，经过对报错信息的搜索，修改这两步之后samtool就能正常使用了

2.输入数据

p84k.hq.fasta和poplar_84k_genome_v1.0.fa

转录组和参考基因组接下来要通过污染数据库来对p84k.hq.fasta纯化

3.配置UniVec数据库

wget ftp://ftp.ncbi.nih.gov/pub/UniVec/UniVec

formatdb -i UniVec -p F

无法使用formatdb ，搜索发现makeblastdb也能达到一样的效果。正在探索参数

makeblastdb -in UniVec -dbtype nucl -input_type fasta -parse_seqids -out UniVec

/PASApipeline.v2.4.1/bin/seqclean transcript.fasta -v /path/to/your/UniVec

可以得到p84k.hq.fasta.clean和p84k.hq.fasta.cln 这几个东西要在同一个文件夹下

4.编辑比对配置文件

cd pasa_conf

cp pasa.alignAssembly.Template.txt alignAssembly.config

vi alignAssembly.config

DATABASE=/tmp/mydb.sqlite #在一个真实的文件夹下写一个虚拟的文件名

validate_alignments_in_db.dbi:--MIN_PERCENT_ALIGNED=80

validate_alignments_in_db.dbi:--MIN_AVG_PER_ID=80

5.运行主程序

$PASAHOME/Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g poplar_84k_genome_v1.0.fa -t clustered.hq.fasta.clean -T -u clustered.hq.fasta --ALIGNERS blat --CPU 1

经查，gmap的环境和conda是有冲突的，需要在conda的环境里注释掉gamp

所以我干脆在--ALIGNERS的参数里面只用了blat

这里需要跑一段时间

输出包括mydb.sqlite.assemblies.fasta和mydb.sqlite.valid_blat_alignments.gff3 以及一大堆东西

6.提ORF

/home/caocao/miniconda3/envs/pasa/opt/pasa-2.4.1/scripts/pasa_asmbls_to_training_set.dbi

--pasa_transcripts_fasta mydb.sqlite.assemblies.fasta

--pasa_transcripts_gff3 mydb.sqlite.valid_blat_alignments.gff3

得到的输出数据为fasta.transdecoder.cds,.pep,.gff3,.bed 和 fasta.transdecoder.genome.bed,gff3

genome.bed是一种注释信息的格式，在其中有那些基因的起始坐标和终止坐标。可以一定程度上得知ORF的位置和长度

最后编辑于：2020.12.02 12:26:24

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

pasa安装记录和ORF提取

pasa安装记录和ORF提取

相关阅读更多精彩内容

友情链接更多精彩内容