2018-10-16

生信学习笔记

转录组是测表达量 WES是测变异与否

WES数据分析

WES 全外显子测序 对SNP和indel体细胞变异敏感度较高  

外显子占全基因组1%左右 因此与全基因组测序相比 对重复变异敏感度不高


流程  学习材料见简书给学徒的wes数据分析流程

1.安装软件

新建一个环境装软件  昨天已经装了的也重新装一下

wgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/freeconda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forgeconda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/biocondaconda config --set show_channel_urls yes

设置镜像安装conda  昨天安过了

conda create -n wes python=2 bwa

conda info --envs

sourceactivate wes   创建新环境 wes 进入环境

conda install sra-tools

conda install samtools

conda install -y bcftools vcftools  snpeff

conda install -y multiqc qualimap 安装所需软件

mkdir -p gatk4 &&  cd gatk4

wget https://github.com/broadinstitute/gatk/releases/download/4.0.6.0/gatk-4.0.6.0.zip

unzip gatk-4.0.6.0.zip 新建文件夹  下载gatk (分析各种数据用的)

2.质控

mkdir ~/project/boy

wkd=/home/jmzeng/project/boy

mkdir {raw,clean,qc,align,mutation}

cd qc

find /public/project/clinical/beijing_boy -name *gz|grep -v '\._'| xargs fastqc -t 10-o ./     创建文件夹 fastqc分析数据质量并生成报告 (grep -v ‘ ’ 不要什么)

mkdir $wkd/clean

cd $wkd/clean

find /public/project/clinical/beijing_boy -name *gz |grep -v'\._'|grep 1.fastq.gz > 1

find /public/project/clinical/beijing_boy -name *gz |grep -v'\._'|grep 2.fastq.gz > 2

paste 1 2 > config  找文件  赋值  写入config   找文件那部分代码可以改   熟悉怎么找就怎么找

bin_trim_galore=trim_galore

dir= $wkd/clean

cat config |while read id

do

     arr=(${id})

     fq1=${arr[0]}    0是变量arr的第一列  因为之前paste时候 fq1是在第一列

    fq2=${arr[1]}     1是第二列

      echo $dir $fq1 $fq2   写到这echo的时候可以先运行一下  看看对不对

nohup $bin_trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &  过滤  nohup 不在屏幕显示反馈的信息     &符号为后台运行  这样可以用服务器算 电脑可以关机或者离线

done

3.比对

wes比对用bwa软件  bwa的比对需要三列数据   如图


bwa比对需要的格式

先少弄点  比如提取只提取 chr1 的数据 怎么整我还得研究研究  


INDEX=/public/biosoft/GATK/resources/bundle/hg38/bwa_index/gatk_hg38 建立索引

ls /home/zhaowei/project/boy/clean/*1.fq.gz >1

ls /home/jmzeng/project/boy/clean/*2.fq.gz >2

cut -d"/"-f 7 1 |cut -d"_"-f 1 > 0

paste 0 1 2 > config     把config做成三列的

INDEX=/public/biosoft/GATK/resources/bundle/hg38/bwa_index/gatk_hg38 index文件怎么建立得学学

cat config |while read id

do

arr=($id)

fq1=${arr[1]}

fq2=${arr[2]}

sample=${arr[0]}

echo $sample $fq1 $fq2   先done一下看看对不对

bwa mem -t 5 -R"@RG\tID:$sample\tSM:$sample\tLB:WGS\tPL:Illumina" $INDEX $fq1 $fq2| samtools sort -@ 5 -o $sample.bam   #-o后面是输出到哪   $前面啥都不加相当于省略了./ 即输出到当前文件夹

done

4.找变异

ref=/public/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta

source activate wes

time samtools mpileup -ugf  $ref *.bam| bcftools call -vmO z -o out.vcf.gz

ls *.bam |xargs -i samtools index {}     这里没去除PCR重复

去除PCR重复

#samtoolsmarkdup-r 7E5241.bam 7E5241.rm.bam

#samtoolsmarkdup-S 7E5241.bam 7E5241.mk.bam


GATK流程

GATK=/home/jmzeng/biosoft/gatk4/gatk-4.0.6.0/gatk

ref=/public/biosoft/GATK/resources/bundle/hg38/Homo_sapiens_assembly38.fasta

snp=/public/biosoft/GATK/resources/bundle/hg38/dbsnp_146.hg38.vcf.gz

indel=/public/biosoft/GATK/resources/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz 先把这一大堆变量建好  后面代码里有

后面的循环一个一个来   要不乱套了

for sample in {7E5239.L1,7E5240,7E5241.L1}  这里头的文件名根据实际情况写

do echo $sample     这个循环挺好   看看

$GATK --java-options"-Xmx20G -Djava.io.tmpdir=./"MarkDuplicates \

 -I $sample.bam \ 

 -O ${sample}_marked.bam \

 -M $sample.metrics \

 1>${sample}_log.mark 2>&1  这步里的1 代表正常输出的信息 2代表报错的信息  都整一起了 得去log.mark这里头看     这段代码可以不用   这步生成了_marked.bam

done


之前那个for循环再循环一下

$GATK --java-options "-Xmx20G -Djava.io.tmpdir=./" FixMateInformation \ 

 -I ${sample}_marked.bam \ 

 -O ${sample}_marked_fixed.bam \ 

 -SO coordinate \

 1>${sample}_log.fix2>&1

samtools index ${sample}_marked_fixed.bam  这步生成了_marked_fixed.bam

done


之前for循环再循环一次

$GATK --java-options "-Xmx20G -Djava.io.tmpdir=./"BaseRecalibrator \ 

 -R $ref \ 

 -I ${sample}_marked_fixed.bam \ 

 --known-sites $snp \ 

 --known-sites $indel \ 

 -O ${sample}_recal.table \

1>${sample}_log.recal2>&1

done

这步生成啥不知道  就跑到这

tips     for sample in {}  do 那个循环好好练练  好像整明白了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容