【RNA-seq自学08】数据分析之表达定量 featureCount 、表达矩阵

featuresCounts

软件用于定量,不仅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。

featureCounts 需要两个输入文件:

1)reads的比对情况,这种信息通常都用BAM/ SAM文件来存储

2)区间注释文件,支持两种格式

安装

conda install subread

运行

featureCounts -p -a 00ref/Araport11_GFF3_genes_transposons.201606.gtf \ #注释文件

-o our_counts.txt \ #输出文件

-T 6 -t exon \

-g gene_id sample*_Aligned.sortedByCoord.out.bam #对这部分文件进行定量

运行结果:产生两个文件out counts . txt和out_ counts.txt.summary

featureCounts运行

查看out counts . txt文件,里面包含有geneid,染色体位置,基因起始结束的位置以及基因的count数

out counts . txt

表达定量结果转换为表达矩阵

#构建矩阵

rsem-generate-data-matrix *.genes.results > output. matrix

矩阵输出结果

#删除未检测到表达的基因(剔除表达量为0的基因)

awk 'BEGIN{printf"geneid\ta1\ta2\tb1\tb2\n"}{if($2+$3+$4+$5>0)print $0}'

out.matrix > deseq2_input.tx

结果:查看文件的行数,删除未检测到表达基因的行数

###查看文件的行数

wc -l output.matrix

wc -l deseq2_input.txt

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。