WGS分析笔记(1)数据+质控 2021-12-15

最近在做数据分析,同时把笔记整理一下,查漏补缺。

Step1. miniconda3创建虚拟环境

conda env list  #可以查看虚拟环境,默认安装的为base环境,*号表示当前环境
conda create -n your_env_name #创建虚拟环境
conda activate your_env_name #激活虚拟环境
source activate your_env_name #激活虚拟环境
conda deactivate #退出当前环境
conda create --name your_env_name --clone old_env_name # 从一个虚拟环境克隆一个新环境
conda remove --name your_env_name # 删除虚拟环境
conda create --name your_env_name python=3.6 #指定python环境
conda export > your_project_env.yaml # 导出环境变量
conda search bioconda #查找软件
conda install -c bioconda blast=2.7.1 samtools=1.7 #安装软件并指定版本,空格后可添加多个软件
conda install -y fastqc=0.11.7 #添加-y参数跳过确认的步骤
creat -n dna sra-tools fastqc cutadapt trimmomatic star hisat2 samtools subread htseq #转录组分析常用软件
create -n medaka -c conda-forge -c bioconda medaka # 创建一个名为medaka的环境,同时安装bioconda 

Step2.原始SRA数据下载

三种方式:

  1. Aspera Connect
  2. sratoolkit的prefetch
  3. ftp

注意:不推荐wget或curl下载,速度慢,且有时下载不完全

prefetch SRRxxxxxxx

Step3.SRA转fastq

fastq-dump --split-3 -O /your path/ SRRxxxxxxx.1

如遇报错:

An error occurred during processing.
A report was generated into the file '/root/ncbi_error_report.xml'.
If the problem persists, you may consider sending the file
to 'sra@ncbi.nlm.nih.gov' for assistance.

这是因为你的磁盘不够了,文件写不下去了,这时就需要清理文件了,或者在输出fastq文件时进行压缩

fastq-dump --split-3 -O /your path/ --gzip file.sra

如涉及磁盘的空间问题,压缩文件,格式转化完成后删除原始数据

Step4.数据质量检测

软件 fastqc

mkdir qc
fastqc -o qc /your path/SRRxxxxxx_1.fastq

查看指标:
-read各个位置的碱基质量值分布
-碱基的总体质量值分布
-read各个位置上碱基分布比例,目的是为了分析碱基的分离程度
-GC含量分布
-read各位置的N含量
-read是否还包含测序的接头序列


1.jpg

随着illumina测序的不断优化,一般目前的测序数据都还可以。

Step5.质量控制

软件:fastp
安装:wget http://opengene.org/fastp/fastp

chmod 755 ./fastp
./fastp
pwd fastp # 确认本地路径
export PATH=$your path/:PATH # 添加环境变量 完成全局调用设置
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -w 8 #
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -u 50 -n 15 -5 20 -3 20 -w #
    -c 对overlap区域进行纠错,适用于paired-end read
    -w 线程数, 推荐8
    -q 设置低质量的标准,默认是15
    -u 低质量碱基所占比例,默认40,代表40%,只要有一条read不满足条件就成对丢掉
    -n 过滤N碱基过多的reads,15代表个数,因为一般paired-end read 150的reads长度是150
    -5 根据质量值来截取reads,对应 5‘端,得到reads长度可能不等
    -3 根据质量值来截取reads,对应 3’端,得到reads长度可能不等

具体参数请参考官网说明
最后,查看clean data结果,直接查看fastp也会生成一份报告。


2.jpg

水平有限,如存在什么错误请评论指出!请大家多多批评指正,多多交流,谢谢!

参考:
https://www.zhihu.com/question/26011991 作者:黄树嘉
https://blog.csdn.net/weixin_42953727/article/details/90576214 作者:weixin_42953727
https://www.jianshu.com/p/817450b99461 作者:十三而舍
https://www.jianshu.com/p/762601f91539 作者:wo_monic

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容