小王的RNA-seq傻瓜学习教程（纠错改正中）

1、NCBI-原始SRA数据的下载

只会下到电脑上通过WinSCPC传到服务器，其他方法还没试过！后续要学一下滴

原始数据下载GEO

其实提供了不同格式的数据呢

2、SRA数据转fastq格式

首先明确是单端测序还是双端测序！！

fastq-dump .sra文件

然后压缩一下（因为节省空间）

grip SRR.fastq

3、质控及去接头trim_galore

自动检测adapter的质控软件，具体参数

--length（设定reads长度的一半）---唉嗨？长度咋查查

zcat SRR.fastq.gz |head -n 10

--quality 25

--phred33 ：代表采用phred33编码系统，默认为phred64，具体使用哪个要看你测序的机器和测序方法

--stringency：设定可以忍受的前后adapter重叠的碱基数，默认为1（非常苛刻）。可以适度放宽，因为后一个adapter几乎不可能被测序仪读到。

--paired：对于双!端!测序结果，一对reads中，如果有一个被剔除那么另一个会被同样抛弃，而不管是否达到标准。

--gzip：清洗后的数据zip打包或者不打包

--fastqc：质控

--output_dir 结果输出到哪个文件夹输入目录。需要提前建立目录，否则运行会报错。命名为啥

trim_glore

!!!!师兄说了，不要全在一个文件夹里弄，分步分文件夹，清楚的很。trim之后的文件是trimmed.fq.gz

4、hisat2比对mapping

需要index！index是依据genome来自己build构建的。师兄直接给我传好他做的了。

怎么构建index可以查百度

hisat2-build -p 4 genome.fa genome

#genome是基因组的名字比如人类是hg19 那么示例代码就是：hisat2-build -p 4 hg19.fa hg19

有index就可以mapping了

hisat2 -p 40（线程，越大越快） -x #index -U trimmed.fq.gz -S mapping完后输出文件加/输出文件的名字

看一下mapping结果，师兄说一般60往上也能使，那必然是越高越好呀

hisat2

5、mapping文件排序sam转bam

需要用到samtools

samtools sort -O bam -@25 SRR.sam -o /hissat2_dir/SRR.sort.bam

-O 大写O是指定输出文件格式为bam

-o 输出文件夹及名字

-@ 25 线程

samtools sort

6、featureCounts算count

软件是subread

featureCounts -T 40 -g gene_id -a ~/注释文件.gtf -o ./输出文件夹/及名字count.txt /*bam（操作哪些bam文件，*bam是一起对所有的文件处理生成在一个txt里）

-a 输入GTF/GFF基因组注释文件（师兄传给我了）

ensmble里面下，选最短的那个

-p 这个参数是针对paired-end数据

-F 指定-a注释文件的格式，默认是GTF

-g 从注释文件中提取Meta-features信息用于read count，默认是gene_id

-t 跟-g一样的意思，其是默认将exon作为一个feature

-o 输出文件名称

-T 线程数目

撒花结束。count就拿到了！服务器上的操作就结束了

最后编辑于：2023.10.09 11:33:01

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

禁止转载，如需转载请通过简信或评论联系作者。

小王的RNA-seq傻瓜学习教程（纠错改正中）

小王的RNA-seq傻瓜学习教程（纠错改正中）

相关阅读更多精彩内容

友情链接更多精彩内容