20210315rna-seq学习日记-Mac
1 安装所有的miniconda以及bioconda相关软件
https://www.jianshu.com/p/e8cd62ba14fe
目录如上
2 下载需要的程序(这里已有需要分析的seq fastq原始文件)
需要下载请参考
https://www.jianshu.com/p/8dca09077df3
今天只选择了wget 方式ftp的缓慢下载,之后有速度要求可以参考
3 sra到fastq格式转换
https://www.jianshu.com/p/facb4a1e5927
(此处已有原始fastq文件)
使用fastq-dump将网站下载的sra转换为fastq格式,并且查看fastqc质量
中文简介
https://www.jianshu.com/p/14fd4de54402
(注意:Fastq格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。最初由桑格研究所(Wellcome Trust Sanger Institute)开发出来,现已成为存储高通量测序数据的事实标准。)
【用法:fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN参数:-o 输出目录,需自己创建目录--(no)extract 是否解压输出文件,默认是自动解压缩zip文件。加上--noextract不解压文件。-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。-t 同时处理的文件数目。-c 是contaminant 文件,会从中搜索overpresent 序列。】
简单的(单文件)处理
#将所有的数据进行质控,得到zip的压缩文件和html文件
fastqc -o . *.fastq.gz
注意:-o后面有空格,表示输出到当前文件夹,之后的.后也有空格
批量输出请持续在后方添加n*.fastq.gz
复杂的(多文件)QC结果显示
# 进入存放QC结果的文件夹,并执行multiqc
cd ~/disk2/data/QC
# 扫描结果文件,忽略html文件
$ multiqc /data/*fastqc.zip --ignore *.html
# 最后会默认生成一个名为multiqc_report.html文件,用浏览器查看,具体看青山屋主的介绍。
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1iRTvV2GwkwL2AaxYi2fXHP7