1、NCBI-原始SRA数据的下载
只会下到电脑上通过WinSCPC传到服务器,其他方法还没试过!后续要学一下滴
2、SRA数据转fastq格式
首先明确是单端测序还是双端测序!!
fastq-dump .sra文件
然后压缩一下(因为节省空间)
grip SRR.fastq
3、质控及去接头trim_galore
自动检测adapter的质控软件,具体参数
--length(设定reads长度的一半)---唉嗨?长度咋查查
zcat SRR.fastq.gz |head -n 10
--quality 25
--phred33 :代表采用phred33编码系统,默认为phred64,具体使用哪个要看你测序的机器和测序方法
--stringency:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。
--paired:对于双!端!测序结果,一对reads中,如果有一个被剔除那么另一个会被同样抛弃,而不管是否达到标准。
--gzip:清洗后的数据zip打包或者不打包
--fastqc:质控
--output_dir 结果输出到哪个文件夹输入目录。需要提前建立目录,否则运行会报错。 命名为啥
!!!!师兄说了,不要全在一个文件夹里弄,分步分文件夹,清楚的很。trim之后的文件是trimmed.fq.gz
4、hisat2比对mapping
需要index!index是依据genome来自己build构建的。师兄直接给我传好他做的了。
怎么构建index可以查百度
hisat2-build -p 4 genome.fa genome
#genome是基因组的名字 比如人类是hg19 那么示例代码就是:hisat2-build -p 4 hg19.fa hg19
有index就可以mapping了
hisat2 -p 40(线程,越大越快) -x #index -U trimmed.fq.gz -S mapping完后输出文件加/输出文件的名字
看一下mapping结果,师兄说一般60往上也能使,那必然是越高越好呀
5、mapping文件排序sam转bam
需要用到samtools
samtools sort -O bam -@25 SRR.sam -o /hissat2_dir/SRR.sort.bam
-O 大写O是指定输出文件格式为bam
-o 输出文件夹及名字
-@ 25 线程
6、featureCounts算count
软件是subread
featureCounts -T 40 -g gene_id -a ~/注释文件.gtf -o ./输出文件夹/及名字count.txt /*bam(操作哪些bam文件,*bam是一起对所有的文件处理生成在一个txt里)
-a 输入GTF/GFF基因组注释文件(师兄传给我了)
ensmble里面下,选最短的那个
-p 这个参数是针对paired-end数据
-F 指定-a注释文件的格式,默认是GTF
-g 从注释文件中提取Meta-features信息用于read count,默认是gene_id
-t 跟-g一样的意思,其是默认将exon作为一个feature
-o 输出文件名称
-T 线程数目
撒花结束。count就拿到了!服务器上的操作就结束了