Samtools统计测序深度

用法1:利用-b 制作bed位置文件,在单个样本中计算这些位置的深度。

Usage: samtools depth [options] in1.bam [in2.bam [...]]

cd $workDir
bam1=(P003E0 P004E0 P013E0)
for i in {0..2}
do
bam=${bam1[$i]}
samtools depth -b $bedDir/${bam}.bed $Bam1/${bam}.bam > $outDir/${bam}.depth
done
用法2:利用-f 制作bam list文件,在多个样本中计算单个位置的深度。

usage:samtools depth -r chr2:25965491-25965491 -f bam.txt > depth.txt

BUT,想要利用samtools统计多个位置在多个样本中的深度,咋搞捏?同时利用-b 和-f 并不成功!然后就想了一个傻傻的办法,写个循环批量使用用法2的命令,或许有更方便的方法是我还没找到,先记录一下下这个办法~

用法3:在多个样本中计算多个位置的深度。
step1:制作bam文件

注意格式:路径+文件名,一行一个

for file in /*/0_BQSR/*
do
cd $file
targetfile=*.sort.dedup.BQSR.bam
path=$(pwd)
echo $path/$targetfile
done
step2:制作位置文件
#excel表整理pos.txt
#ABL1    chr9    :       133759490       -       133759490
#ALK     chr2    :       30143025        -       30143025
#uniq+sort
uniq pos.txt
sort pos.txt > pos_sorted.txt

排序是为了后面方便加基因名哈因为bed文件不能加基因名,所以生成的结果也是不带基因名的哈

step3:批量制作sh命令
##===========python============
import os
__author__ = 'huangy'

os.chdir('/6_depth')
os.getcwd()
##读取文件
file=open("pos_sorted.txt", "r")
data=file.readlines()
list=[]
for i in data:
    line=i.strip('\n')
    line=line.split('\t')
    list.append(line)
##制作命令写入list1
list1=[]
n=len(list)
for i in range(0,n):
    pos=list[i][1]+':'+list[i][3]+'-'+list[i][3]
    bam='/6_depth/bam.txt'
    name=list[i][0]
    out='/6_depth/out_0906/'
    all='samtools depth -r'+' '+pos+' -f '+bam+' '+'>'+out+name+'_'+list[i][1]+'_'+list[i][3]+'_depth.txt'
    list1.append(all)
    all=''
##输出文件bash.txt
fileObject = open('bash.txt', 'w')
for i in list1:
    fileObject.write(i)
    fileObject.write('\n')
fileObject.close()

哈哈哈,其实这个就是生成一堆用法2的命令!感觉被我写复杂啦!

step4:执行bash文件
mv bash.txt bash.sh
sh bash

生成结果后发现明明一条命令输入的一个位置有些文件怎么生成了两个染色体不一样的结果!OMG!想了很久没相通是为什么,于是查看了下到底有哪些文件是两行结果的。

step5:查看是否有不匹配的行
for file in /6_depth/out_0906/*
do
echo $file
a=$(cat ${file} |wc -l)
b=2
name=`echo $file|awk -F '_' '{print $3}'`
if [ "$a" -eq "$b" ]
then
    echo "${file}为2"
else
    echo "${file}为1"
fi
done

于是我就很天真的把不匹配的那一行删啦,虽然不知道是什么原因。感觉没理由的删除不匹配的那一行有一种掩耳盗铃的感觉!

step6:删除不匹配的行
for file in /6_depth/out_0906/*
do
echo $file
name=`echo $file|awk -F '/' '{print $10}'|awk -F '_' '{print $2}'`
sed -i "/\<$name\>/I! d" $filebianc
done

然后又发现有些文件空了,为了后期加基因不串行,于是我又把空文件加了一行。。。

step7:空文件补上空行
for file in /6_depth/out_0906/*
do
echo $file
a=$(cat ${file} |wc -l)
c=0
name=`echo $file|awk -F '_' '{print $3}'`
if [ "$a" -eq "$c" ]
then
    echo "${file}为0"
    echo -e > $file
else
    echo "${file}为1"
fi
done
step8:整合所有的位置文件
cat *_depth.txt > depth.txt
step9:整理表格查看问题

检测发现BQSR文件位点统计都为空
samtools depth -r chr1:27101442-27101442 bam.txt > test_depth.txt
终于破案了!!!检查发现是Ion与Illumina的bam文件不一致的原因,samtools的结果部分文件生成了两个结果。而吧这两个结果相加就刚好是所有样本的值。
解决方法1:两种类型文件分开整理(以后采用此方法)
解决方法2:将已生成的文件两行文件相加
鉴于上面已经处理好了许多步骤不好将两种类型的bam文件区分开,因此这次采用第二种解决方法~所以,step5-8是错误步骤,以后可以忽略!

step10:将已生成的文件两行文件相加
#======================python======================
import os
__author__ = 'huangy'

os.chdir('/6_depth/out_0908/')
os.getcwd()
txtLists = os.listdir()

for txt in txtLists:
    file=open(txt, "r")
    data=file.readlines()
    lines = len(data)
    if lines == 2:
        list=[]
        for i in data:
            line=i.strip('\n')
            line=line.split('\t')
            list.append(line)   
        for i in range(2,220):
            list[0][i]=str(int(list[0][i])+int(list[1][i]))
        ##输出文件txt
        fileObject =open(txt, "w")
        seq='       '.join(list[0])
        fileObject.write(seq)
        fileObject.write('\n')
        fileObject.close()
    else:
        print(txt)
step11:整合所有的位置文件
cat *_depth.txt > depth.txt

至此已经生成好了全部位点在全部bam中的位置啦生成的是一个矩阵,列为各bam文件,行为各位点位置可以通过pos_sorted.txt文件在最前面插入一列基因的名字,因为排过序所以位置和基因的顺序是一样的哦,可以直接拷贝粘贴!哦!太方便惹!

txt复制到excel表中

以下步骤可以不用┗|`O′|┛ 嗷~~

step12:统计depth>300的位置

因为深度太低可信度不高,所以后期设置了300作为阈值来筛选。

#======================python======================
import os
import pandas as pd
__author__ = 'huangy'

os.chdir('/6_depth/')
os.getcwd()
##读取文件
#mutation.txt为第一列加了基因名的 depth.txt
file=open("mutation.txt", "r")
data=file.readlines()
list=[]
for i in data:
        line=i.strip('\n')
        line=line.split('\t')
        list.append(line)
#将>300的设为1,其余的设为0
for i in range(0,557):
    for j in range(3,222):
        if int(list[i][j]) > 300:
            list[i][j]=1
        #   int(list[i][j])
        else:
            list[i][j]=0
#将字符转换成整数格式便于相加
for i in range(0,557):
    for j in range(3,222):
            list[i][j]=int(list[i][j])
#转换成datafram格式便于pandas处理
data=pd.DataFrame(list)
df=data.groupby(by=data[0]).sum()
#输出为csv文件
outputpath='/6_depth/depth.csv'
df.to_csv(outputpath,sep=',',index=True,header=False)

还有后续的一些突变分析以后再补啦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355