经历之前的三节,现在大家手上已经有了从NCBI或者ENA数据库下载好并转化成了Fastq格式的文件(可以看到我这里只有单端测序的文件,应该是这个数据集上传的时候填错了)。这个时候心急的小伙伴可以直接拿着数据文件做定量分析了。个人计算机内存不足,我们可以使用基于k-mer的定量分析软件(kallisto,salmon)来分析你的数据。好,FastQC教程到此结束(并没有)。
什么是FastQC
FastQC是什么意思?FastQC是什么梗?FastQC是谁?这个梗又是从何而来?为什么一瞬间就有好多人使用这个梗?为什么大家都在FastQC?相信不少同学都很想了解这个梗,下面就让小编来为大家介绍一下FastQC梗的详细内容。FastQC是什么意思?FastQC是什么梗?FastQC是谁?这个梗又是从何而来?为什么一瞬间就有好多人使用这个梗?为什么大家都在FastQC?相信不少同学都很想了解这个梗,下面就让小编来为大家介绍一下FastQC梗的详细内容。
FastQC is a quality control application for high throughput sequence data. It reads in sequence data in a variety of formats and can either provide an interactive application to review the results of several different QC checks, or create an HTML based report which can be integrated into a pipeline.
FastQC是一个用于高通量序列数据的质量控制程序。FastQC可以读取并分析多种格式的序列数据,并且可以以交互的形式来检查几种不同的质量结果,或者创建一个可以集成到自动分析流程中的报告。
以上就是FastQC的全部内容,希望能够帮助到大家(辣鸡小编附体)。
安装FastQC
win10系统是可以直接安装FastQC的,具体教程参考:
https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt
FastQC依赖java环境,所以首先你需要一个openjava程序
https://adoptopenjdk.net/
安装好openjava后下载FastQC的win版本文件
https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
文件解压缩后,双击run_fastqc.bat打开应用。
File→Open打开需要检查质量的文件
全部打开后会显示文件列表和进度。
完成后可以查看测序质量。
具体参数的解读看这里
https://zhuanlan.zhihu.com/p/20731723
注意:现在的后续流程开发软件也意识到这一问题,所以在程序里也对这类序列问题进行自动校正 ,总的来说不用切初始5bp的序列了,如果乱切反而容易出问题(感谢CJ大神的解释)。
最后别忘记ctrl+s挨个保存QC结果。
TBtools实现方式
TBtools的FastQC是个相对无趣的插件,你只需要把想要QC的文件拖进去,然后点击开始就行了,异常的枯燥。
完成后在对应的文件夹中会有个带有相同SRR序列号的fastqc.html文件,打开就能 查看质量信息了。
FastQC命令行实现方式
在需要FastQC的位置右键打开WSL,之后输入
#安装fastqc
conda install fastqc
#对所有fastq文件进行质控
fastqc *.fastq
完成后同样生成html文件。
如果你想把报告整合一下,可以使用multiqc
##安装multiqc
conda install multiqc
##multiqc整合fastqc报告
multiqc .
不难看出QC 比例存在问题,序列开头ATGC比例不合理,还有就是有重复序列。所以还是要用trimmomatic进行数据修正。