生信星球转录组培训第一期Day5--郝志刚

数据过滤

简介:

目的去掉低质量的碱基或接头,一般使用两款软件:trim_galoretrimmomatic,他们的去除是从不合格的位置往后全部切掉。
trim_galore:它去接头序列依赖的是Cutadapt,接头一般出现在3’末端。
它参数如下:

  • -q 表示设置的碱基质量阈值
  • --phred33表示质量体系。phred33和phred64,目前测序平台出的数据都是phred33.
  • --length表示测序片段长度的阈值,比如设置阈值50,若去除接头和低质量的碱基后,长度低于50bp,就直接把整条去掉。
  • --stringency设置数字表示:有几个碱基和接头序列是有重叠,默认值为1,意思是从3`的位置检测,出现一个碱基与常用接头有重叠就把这个碱基以后的序列都去掉。
  • --paird表示双末端
  • -o 输出路径

实际操作

  • 合并文件并加路径
raw=~/RNAseq/raw
ls `pwd`*_1* >new_1
ls `pwd`*_2* >new_2
paste new_1 new_2>conf
  • 遍历文件并进行过滤
# 首先进入脚本目录
cd $rna/script
# 然后新建一个脚本文件,并向其中添加内容
cat >filter.sh #回忆一下前面怎么用cat新建一个脚本
# 脚本的内容是:
rna=/My_PATH/RNAseq #这里注意修改成自己的
cat $rna/raw/conf | while read i
do
    fqs=($i)
    fq1=${fqs[0]}
    fq2=${fqs[1]}
    nohup trim_galore -q 25 --phred33 --length 50 -e 0.1 --stringency 3 --paired -o $rna/clean $fq1 $fq2 &
done
bash filter.sh

sh、bash都是linux中的解释器,但有的sh是没有数组array解释器的,因此当你使用sh去运行整个命令时,有可能会产生报错:
Syntax error: "(" unexpected (expecting "done")
但这并不是说代码写错了,而是选择错了解释器。当然如果你的sh可以成功解释代码,也是可以用的


过滤结果

比对

需要数据

  • 过滤并质控合格的数据
  • 参考基因组、注释文件
  • 生成小数据
# 先配置clean data路径
cd $rna/clean
ls `pwd`/*_1*gz >1.clean
ls `pwd`/*_2*gz >2.clean
paste 1.clean 2.clean >clean.conf
  • 新建test文件夹,进行测试
mkdir $rna/test && cd "$_"
cat >sample_fq.sh
# 输入以下内容
rna=/MY_PATH/rnaseq 
cat $rna/clean/clean.conf | while read i;do
    fqs=($i)
    fq1=${fqs[0]}
    fq2=${fqs[1]}
    file=`basename $fq1`
    #echo $file
    surname=${file%%_*}
    #echo $fq1 $fq2 $surname
    # 随机选了10000条reads
    seqtk sample $fq1 10000 >test.${surname}_1.fastq
    seqtk sample $fq2 10000 >test.${surname}_2.fastq
done

basename的语法是:basename[选项][参数]
其中:
选项:为有路径信息的文件名,如/home/test/test.txt

参数:指文件扩展名


basename用法

seqtk 是一款针对fasta/fastq 文件进行处理的小程序,有很多的功能,速度很快,很方便;
安装conda install seqtk

子程序

seqtk seq : 用途:
  案例1:seq 序列常规转换

将fastq转换成fasta:

seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa

将fastq序列做反向互补分析:

seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq

案例2:sample 随机抽样

seqtk sample -s100 Sample_R1.fq.gz 10000

可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。

案例3:subseq 提取序列

根据输入的bed文件信息,将固定区域的序列提取出来:

seqtk subseq in.fa reg.bed > out.fa

根据输入的name list,提取相应名称序列:

seqtk subseq in.fq name.lst > out.fq

案例4:截取序列

切除reads的前5bp,以及后10bp:

seqtk trimfq -b 5 -e 10 in.fq > out.fq

hisat2比对

mapping的目的:找到reads在基因组上的位置。

  • 构建索引
mkdir $rna/align/hisat2 && cd "$_"
cat >index.sh #输入以下内容
rna=/MY_PATH/rnaseq
genome=$rna/ref/hg19.fa
hisat2-build -p 10 $genome hg19

bash index.sh

  • 比对
# 小数据的路径
ls $rna/test/*_1* >1.test
ls $rna/test/*_2* >2.test
paste 1.test 2.test >test.conf
#合并文件

cat >hisat2_aln.sh
#创建索引路径
index= $rna/align/hisat2/hg19
#读取目标文件
cat test.conf| while read i
do
    fqs=($i)
    fq1=${fqs[0]}
    fq2=${fqs[1]}
    sample=`basename $fq1 | cut -d '_' -f1`
    hisat2 -p 10 -x $index -1 $fq1 -2 $fq2  | samtools sort -O bam \
        -@ 10  -o ${sample}_hisat.sorted.bam
    samtools index -@ 10 -b ${sample}_hisat.sorted.bam 
done

hisat2
-x 指定基因组索引
-1 指定第一个fastq文件
-2 指定第二个fastq文件
samtools
sort对bam文件进行排序。
-o 输出文件名
index:建立索引
-b 默认下输出是 SAM 格式文件,该参数设置输出 BAM 格式


结果

作业

(1)
过滤后


image.png

image.png

过滤前


image.png

运用trim_glore可以看到去除接头的具体情况
(2)
  • hisat2
    -x 指定基因组索引
    -1 指定第一个fastq文件
    -2 指定第二个fastq文件
  • samtools
    sort对bam文件进行排序。
    -p 线程数
    -o 输出文件名
    index:建立索引
    -b 默认下输出是 SAM 格式文件,该参数设置输出 BAM 格式
# 小数据的路径
ls $rna/test/*_1* >1.test
ls $rna/test/*_2* >2.test
paste 1.test 2.test >test.conf
#合并文件

cat >hisat2_aln.sh
#创建索引路径
index= $rna/align/hisat2/hg19
#读取目标文件
cat test.conf| while read i
do
    fqs=($i)
    fq1=${fqs[0]}
    fq2=${fqs[1]}
#去除文件路径,只保留第一个文件名
    sample=`basename $fq1 | cut -d '_' -f1`
#hisat2  10线程 将1,2两个文件比对到$index建立好索引的基因组上,运用samtools排序,输出bam文件
    hisat2 -p 10 -x $index -1 $fq1 -2 $fq2  | samtools sort -O bam \
        -@ 10  -o ${sample}_hisat.sorted.bam
#对生成bam文件排序
    samtools index -@ 10 -b ${sample}_hisat.sorted.bam 
done

(3)

#建立文件夹
mkdir $rna/clean/trimmomatic && cd "$_" 
#运行脚本
cat >filter-2.sh
rna=/MY_PATH/rnaseq 
cat $rna/raw/conf| while read i
do
    fqs=($i)
    fq1=${fqs[0]}
    fq2=${fqs[1]}
#basename去掉目标文件绝对路径
    tri1=`basename $fq1`
    tri2=`basename $fq2`

    nohup trimmomatic PE -phred33 \
    -trimlog trim.logfile\
    $fq1 $fq2 \
    clean.$tri1 unpaired.$tri1 \
    clean.$tri2 unpaired.$tri2 \
    SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:20 &
done

bash filter-2.sh

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351