随着测序技术的快速发展,转录组测序的成本在迅速降低,因此,转录组分析已变得非常普遍。然而,当对成百上千的样本进行转录组分析时,高额的建库和测序成本以及数据分析的复杂性使得大规模的转录组测序难以应用到所有的实验室中。
基于此,已经开发了3'RNA-seq技术,即只通过对mRNA的3'端进行测序并标记上barcode,可以有效降低测序数据量以及建库过程,从而使得大规模转录组测序得以实现。
此文章旨在对该技术的数据分析进行简要介绍。
使用软件:cutadapt STAR featureCounts
首先拿到原始数据,trim R2中可能测通的序列,即包括barcode的序列,此时需用到cutadapt。
cutadapt -A {特定序列} -j {10} -o {R1输出文件} -p {R2输出文件} {R1输入文件} {R2输入文件} -m {去除特定序列后若小于指定长度则去除该reads}
# -A 去除R2中3'端的序列 -a 去除R1中3'端的序列
随后对R1、R2进行数据拆分。拆分之后使用单端比对进行mapping,随后进行计数。
使用STAR进行比对
STAR --runMode ailgnReads --runThreadN 20 --readFilesCommand zcat --quantMode TranscriptomeSAM GeneCounts --outSAMtype BAM SortedByCoordinate --genomeDir genome_index --readFilesIn R2.fq.gz
#若使用双端比对则需要去除R1的barcode序列,但在一定程度上会影响比对结果
sambamba进行PCR去重
sambamba markdup -r -t <线程数> <input.bam> <output.bam>
featureCounts进行计数
featureCounts -g ID -t gene -a xxx.gff -T 20 -o xxx.count xxx.bam #单端
featureCounts -g ID -t -p gene -a xxx.gff -T 20 -o xxx.count xxx.bam #双端
可以对各组数据间进行相关性分析
pearson相关性图
# 统计reads在全基因组范围的情况
multiBamSummary bins --bamfiles file1.bam file2.bam -out treat_results.npz
# file要通过samtools构建index
# 散点图
plotCorrelation -in treat_results.npz -o treat_results.pdf -c pearson -p scatterplot -l rp1 rp2 --log1p
# 热图
plotCorrelation -in treat_results.npz -o treat_results_heatmap.pdf -c pearson -p heatmap --plotNumbers
# 主成分分析
plotPCA -in treat_results.npz -o pca.png