转录组组装后定量及差异分析

Yeyuntian - 简书 (jianshu.com)
Software installation and data required · Trinotate/Trinotate Wiki · GitHub
转录组分析实战第七节:采用Trinotate对拼接结果进行注释 - 简书 (jianshu.com)
Trinity Differential Expression · trinityrnaseq/trinityrnaseq Wiki · GitHub

得到转录本以后使用salmon定量,est_method写salmon就行,进行差异表达分析,有三种方法,edgeR DESeq2 voom,但是我deseq2死活安装不上,最后决定用edgeR
采用的是trinity自带的run_DE_analysis.pl
需要未标准化的raw read counts矩阵,方法有edgeR,DEseq2,voom,

$TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl --matrix counts.matrix --method edgeR --samples_file samples_described.txt

然后用trinity提供的analyze_diff_expr.pl提取差异表达转录本,需要TMM.EXPR.matrix,可以设置pvalue,fold change,max_genes_clust,必须设置max_genes_clust,默认是10000,假如转录本不止的话无法生成热图。

$trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/analyze_diff_expr.pl --matrix salmon.isoform.TMM.EXPR.matrix -P 1e-3 -C 2 --max_genes_clust 20000

然后区分成簇,我也不太明白,感觉就是不同的表达模式聚类,可以根据K-mean算法和树高切割聚类树

//trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/define_clusters_by_cutting_tree.pl -R  /edgeR.4556.dir/diffExpr.P1e-3_C2.matrix.RData --Ptree 60

然后要对差异基因们进行注释,需要安装trinotate,github下载后解压,然后用conda下载依赖软件transdecoder sqlite
然后首先要下载数据库

/admin/Build_Trinotate_Boilerplate_SQLite_db.pl Trinotate

然后构建pfam数据库

makeblastdb -in uniprot_sprot.pep -dbtype prot 
hmmpress Pfam-A.hmm 

接下来的比对需要蛋白质文件,要下一个transdecoder,github下载后解压即可

#首先提取转录本中的ORF
/Trinotate-Trinotate-v4.0.2/TransDecoder-TransDecoder-v5.7.1/TransDecoder.LongOrfs -t /transcriptome/Trinity.fasta
#预测可能的编码区
/Trinotate-Trinotate-v4.0.2/TransDecoder.Predict -t Trinity.fasta
#把转录组组装本和transdecoder预测的蛋白文件比对uniport、pfam
blastx -query Trinity.fasta -db uniprot_sprot.pep -num_threads 8 -max_target_seqs 1 -outfmt 6 -evalue 1e-3 > blastx.outfmt6
blastp -query transdecoder.pep -db uniprot_sprot.pep -num_threads 8 -max_target_seqs 1 -outfmt 6 -evalue 1e-3 > blastp.outfmt6
hmmscan --cpu 12 --domtblout TrinotatePFAM.out Pfam-A.hmm transdecoder.pep > pfam.log
#然后trinotate初始化数据库,分别是数据库文件,定量时的map文件和转录本fasta,以及transdecoder预测的蛋白文件
 Trinotate --db <sqlite.db> --init \
           --gene_trans_map <file> \
           --transcript_fasta <file> \
           --transdecoder_pep <file>
#把比对结果导入数据库
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_swissprot_blastp /Trinotate-Trinotate-v4.0.2/blastp.outfmt6
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_swissprot_blastx blastx.outfmt6 
Trinotate --db /Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --LOAD_pfam Trinit_TrinotatePFAM.out 
#获得report.csv,用于把注释结果添加到trintiy差异分析的结果中
Trinotate --db //Trinotate-Trinotate-v4.0.2/Trinotate.sqlite --report > myTrinotate.tsv
#把注释结果变成mapping文件
/Trinotate-Trinotate-v4.0.2/util/Trinotate_get_feature_name_encoding_attributes.pl /Trinotate-Trinotate-v4.0.2/myTrinotate.tsv > Trinotate_report.xls.name_mappings
#更新表达矩阵
/trinity/trinityrnaseq-v2.13.2/Analysis/DifferentialExpression/rename_matrix_feature_identifiers.pl //transcriptome/salmon.isoform.TMM.EXPR.matrix /Trinotate-Trinotate-v4.0.2/Trinotate_report.xls.name_mappings > Trinity_iso.TMM.EXPR.annotated.matrix
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容