现在很多人都从NCBI上下载高通量测序的SRA文件重新分析利用,想要更加准确地利用这些数据,首先要明确SRA的特征。测序的目的是一方面,建库的类型是一方面,链特异性也是很重要的一方面。
为了明确是不是链特异性的测序,当然可以问作者,但是由于各种原因,我们常常没办法得到这一信息。参考 37、链特异建库 - 风中之铃 - 博客园 的文章,我也做了一下尝试。
首先是下载安装IGV,下载地址为:Downloads | Integrative Genomics Viewer。建议windows朋友下载第2个,自带java,解压即可使用。
解压后需要参考文件.fa,和注释文件.gtf或者.gff文件。前者可以IGV的load genome from server下载,但是速度太慢(可能是我网速问题),也可以参考 转录组入门(4):了解参考基因组及基因注释 - 弗雷塞斯 - 博客园 文章,从UCSC上下载,自行制作。后者可以从gencode(GENCODE - Home page)下载与.fa文件对应的gtf版本。下载的.gtf文件需要用IGV tools的sort功能排序后才可导入。
然后用samtools将STAR比对的sam文件转换为bam文件,排序后(samtools sort A.bam)建立索引(samtools index A.bam)。
最后将bam文件导入IGV,通过first of pair strand来判断链特异性情况。
本文仅为记录学习过程,欢迎批评指正。