Yeyuntian - 简书 (jianshu.com)
Software installation and data required · Trinotate/Trinotate Wiki · GitHub
转录组分析实战第七节:采用Trinotate对拼接结果进行注释 - 简书 (jianshu.com)
Trinity Differential Expression · trinityrnaseq/trinityrnaseq Wiki · GitHub
得到转录本以后使用salmon定量,est_method写salmon就行,进行差异表达分析,有三种方法,edgeR DESeq2 voom,但是我deseq2死活安装不上,最后决定用edgeR
采用的是trinity自带的run_DE_analysis.pl
需要未标准化的raw read counts矩阵,方法有edgeR,DEseq2,voom,
$TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl --matrix counts.matrix --method edgeR --samples_file samples_described.txt
然后用trinity提供的analyze_diff_expr.pl提取差异表达转录本,需要TMM.EXPR.matrix,可以设置pvalue,fold change,max_genes_clust,必须设置max_genes_clust,默认是10000,假如转录本不止的话无法生成热图。
$trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/analyze_diff_expr.pl --matrix salmon.isoform.TMM.EXPR.matrix -P 1e-3 -C 2 --max_genes_clust 20000
然后区分成簇,我也不太明白,感觉就是不同的表达模式聚类,可以根据K-mean算法和树高切割聚类树
//trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/define_clusters_by_cutting_tree.pl -R /edgeR.4556.dir/diffExpr.P1e-3_C2.matrix.RData --Ptree 60
然后要对差异基因们进行注释,需要安装trinotate,github下载后解压,然后用conda下载依赖软件transdecoder sqlite
然后首先要下载数据库
/admin/Build_Trinotate_Boilerplate_SQLite_db.pl Trinotate
然后构建pfam数据库
makeblastdb -in uniprot_sprot.pep -dbtype prot
hmmpress Pfam-A.hmm
接下来的比对需要蛋白质文件,要下一个transdecoder,github下载后解压即可
#首先提取转录本中的ORF
/Trinotate-Trinotate-v4.0.2/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs -t /transcriptome/Trinity.fasta
#预测可能的编码区
/Trinotate-Trinotate-v4.0.2/TransDecoder.Predict -t Trinity.fasta
#把转录组组装本和transdecoder预测的蛋白文件比对uniport、pfam
blastx -query Trinity.fasta -db uniprot_sprot.pep -num_threads 8 -max_target_seqs 1 -outfmt 6 -evalue 1e-3 > blastx.outfmt6
blastp -query transdecoder.pep -db uniprot_sprot.pep -num_threads 8 -max_target_seqs 1 -outfmt 6 -evalue 1e-3 > blastp.outfmt6
hmmscan --cpu 12 --domtblout TrinotatePFAM.out Pfam-A.hmm transdecoder.pep > pfam.log
#然后trinotate初始化数据库,分别是数据库文件,定量时的map文件和转录本fasta,以及transdecoder预测的蛋白文件
Trinotate --db <sqlite.db> --init \
--gene_trans_map <file> \
--transcript_fasta <file> \
--transdecoder_pep <file>
#把比对结果导入数据库
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_swissprot_blastp /Trinotate-Trinotate-v4.0.2/blastp.outfmt6
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_swissprot_blastx blastx.outfmt6
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_pfam Trinit_TrinotatePFAM.out
#获得report.csv,用于把注释结果添加到trintiy差异分析的结果中
Trinotate --db //Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --report > myTrinotate.tsv
#把注释结果变成mapping文件
/Trinotate-Trinotate-v4.0.2/util/Trinotate_get_feature_name_encoding_attributes.pl /Trinotate-Trinotate-v4.0.2/myTrinotate.tsv > Trinotate_report.xls.name_mappings
#更新表达矩阵
/trinity/trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/rename_matrix_feature_identifiers.pl //transcriptome/salmon.isoform.TMM.EXPR.matrix /Trinotate-Trinotate-v4.0.2/Trinotate_report.xls.name_mappings > Trinity_iso.TMM.EXPR.annotated.matrix