根据汉明距离拆barcode

写一个脚本,完成以下任务:
有一个文本文件A如下:barcode.fa,其中包含了若干长度8bp至11bp的DNA序列。

>bc1_0
GTTTGTTT
>bc1_1
ACCGTGTTT
>bc1_2
GATAGTGTTT
>bc1_3
TGAGGCGGTTT
>bc1_4
GATCGTTT
>bc1_5
ATCACGTTT
>bc1_6
GATGTAGTTT
>bc1_7
TGACACAGTTT
>bc1_8
CTTTCTTT
>bc1_9
AGCCTCTTT
>bc1_10
GACGGGCTTT

另有一个fastq文件B,fastq文件不做介绍了。
要求对此fastq文件进行处理,输出满足以下条件的序列:
1)序列的前8bp-11bp与前述文本文件A中的DNA序列hamming distance不大于2;
2)能够唯一匹配到文本文件A中的某一条DNA序列
(例如,如果fastq中某条序列的前8bp-11bp在文本文件中没有完全匹配的DNA序列,而在A文件中有两条或以上的DNA序列的hamming distance为1,则抛弃该序列)。
注意:
主要是在没有0的情况下,多于1个barcode的hamming distance等于1,或者在没有0和1的情况下,多于一个barcode的hamming distance等于2,都是不应该输出的。
有多个barcode跟同一个read的hamming distance都在2以内,这个也分很多种情况,比如,没有barcode的distance是0,但是又1个barcode的distance 是1,n(n>1)个barcode的distance是2,这个时候最小的distance是1,且只跟1个barcode有这个最小值,那么就应该输出。另一个例子,如果没有barcode的distance是0,有2个barcode的distance是1,那就不该输出。

计算hamming 距离
汉明距离是使用在数据传输差错控制编码里面的,汉明距离是一个概念,它表示两个(相同长度)字对应位不同的数量,我们以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。from 维基百科https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
直接上代码:

import gzip
from Bio import SeqIO
import itertools
# 定义函数计算hanming distance。
def hamming(str1, str2):
  return sum(itertools.imap(str.__ne__, str1, str2))
# 处理fasta文件,将id与seq存储为dict
def deal_dna_file(a,):
    dna_dict = {}
    for record in SeqIO.parse(a,"fasta"):
        dna_dict[record.id] = record.seq
    return dna_dict

A_DNA_file = sys.argv[1]
B_fastq_file = gzip.open(sys.argv[2],"r")

# B_fastq_file = open(sys.argv[2],"r")
dna_dict = deal_dna_file(A_DNA_file)
# print dna_dict
# 遍历fastq文件去处理每行序列
for record in SeqIO.parse(B_fastq_file, "fastq"):
    a = 0
    b = 0
    # 遍历dict,去判断hamming距离,分0,1,2三种情况,记录距离为1,和2的次数,根据次数去判断。
    for k,v in dna_dict.items():
        if a >1:
            break
        if hamming(v,record.seq[:len(v)]) == 0:
            print record.seq
        elif hamming(v,record.seq[:len(v)]) == 1:
            a +=1
        elif hamming(v,record.seq[:len(v)]) ==2:
            b +=1
    print a,b
    if a == 1 and b > 1: # one barcode distance is 1 and more than one barcode distance are 2
        print record.seq
    if a == 1 and b == 0: # only barcode distance is 1. 
        print record.seq
    if a == 0 and b == 1: # only barcode distance are 2.
        print record.seq

这样就符合要求了,有bug请反馈。
生信学习者练习题;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,701评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,649评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,037评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,994评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,018评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,796评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,481评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,370评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,868评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,014评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,153评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,832评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,494评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,039评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,437评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,131评论 2 356

推荐阅读更多精彩内容