bowtie2比对结果之multi-hits

了解到在seq中multi-hits的定义是 unique best hit, 即是read比对到了不同的位置,但是获得了同样的最高分数。而bowtie2默认的 >1 alignments 统计的是分数不低于 threshold 的 alignments 的数量。因此两种统计数字会出现偏差。

for FN in *.fa; do
  echo $FN
  GN=`echo $FN | cut -d'.' -f2`
  bowtie2 -k 2 --end-to-end -f --large-index -x ~/*basename -U ${FN} -S `echo $FN | sed s/.fa//g`.bowtie2.${GN}.sam 2> `echo $FN | sed s/.fa//g`.bowtie2.${GN}.log &
done

(for i in *.bowtie2.*.sam; do
  echo -e $i"\t"`gawk '!/^@/' $i | cut -f1,3,12 | gawk 'NR%2==1{ printf("%s\t%s\t%s\t", $1, $2, $3);} NR%2==0{ printf("%s\t%s\n", $2, $3);}' | sed 's/AS:i://g' | gawk '{T++; if($3==$5){C++;}} END{printf("%.2f%\n", C*100/T);}'`
done ) > multiple_hits.bowtie2

关于重定向

liunx 的file descriptor有三种 stdinstdoutstderr 。其中重定位符>默认是 stdout,因此如果在指令出现错误的情况下,错误信息并不会被重定位至文件中。操作 stderr 的方法是 2> 。 如果想将 stdoutstderr 重定位至同一个文件中,方法为command > file 2>&12>&1在后面的原因是

command > file 2>&1
command > file
 将标准输出重定向到file中, 2>&1 是标准错误拷贝了标准输出的行为,也就是同样被重定向到file中,最终结果就是标准输出和错误都被重定向到file中。
command 2>&1 >file
2>&1 标准错误拷贝了标准输出的行为,但此时标准输出还是在终端。>file 后输出才被重定向到file,但标准错误仍然保持在终端。

接上文

代码第一行的行为是使用bowtie进行比对,并将错误信息保存至日志文件中。第二行的行为是进入bowtie比对后的sam格式文件中将alignment的分数信息提取出来,两两比对是否相同。最后计算aligment综述与分数相同alignment数量的比值。这段代码的目的是某一次比对的 unique best hit 的比例。但是这样计算出来的结果可能并不正确。

在使用bowtie2进行比对的时候使用了参数-k 2。使用这个参数的原因是需要统计的量是multi-hits的数量,而只要只要找到一个以上,即2个,即可将这个read计入multi-hits中。
引用bowtie2 manual的说法

When -k is specified, however, bowtie2 behaves differently. Instead, it searches for at most <int> distinct, valid alignments for each read. The search terminates when it can't find more distinct valid alignments, or when it finds <int>, whichever happens first.

这说明即便使用了-k 2参数,也不能保证每个 read 都能有2个 alignment ,而这正是上面那段代码的基础。下面我进行了一些验证。

首先,我模拟了10000个随机的read。按照预想的情况-k 2参数应该保证在sam文件中,应该会有精确的20000行alignmen信息。而实际上alignment信息只有13528行,所以这个前提条件是不可能成立的。
另外一方面,两个alignment的所属的read名称应该相同。而实际上有很多单独的alignemnt。

那么使用这样可能会不成立的前提条件会导致什么结果呢。可以肯定的是,并不会有什么错误信息出现。对于模拟数据而言,由于没有加入点突变的错误率,所有read都是基因组的无错误复制,导致大量的alignment的分数都是 end-to-end 模式下的最高分0分,进而导致大量实际上并没有组成unique best hit的pair分数相同,进而导致被认定为multi-hits,进而导致比率虚高。

那么正确的比率应该如何计算呢。

  1. 确认两个alignment属于同一个read
  2. 确认两者的分数相等

修正后的比率有很大的降低。

关于bash脚本的执行过程

上面那段代码逻辑上可以分为两个部分,第一部分调用bowtie程序并将alignment结果保存在sam格式的文件中。第二部分代码读取sam文件中的内容,提取alignment信息统计multi-hits数量。执行顺序应为等待第一部分执行完毕后,等待sam文件生成完整,再执行第二部分代码。然而在实际执行过程时,几乎是瞬间提示不存在.sam文件,这说明并不是等待结束的顺序执行。查到一个命令 wait 在两部分代码之间加入这个命令可以过得理想顺序。

一个疑问。我之前写的一个脚本的执行顺序与此不同。有待检查。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容