把生物学与信息学联系起来的三个人

四进制的核苷酸串


2029年,某科学课老师正在讲脱氧核苷酸的内容。这位活泼的00后,当讲到DNA的结构的时候,想到:

脱氧核苷酸的A、G、C、T,难道不是一种四进制吗?假设A代表0,G代表1,C代表2,T代表3,互补的和为3。四进制不就是2位二进制吗?

因此万物皆可二进制

她看到了脱氧核苷酸和二进制的关系,开始想更多的生物学与信息学的问题。

第二天,她在科学课上对学生讲基因工程的时候,讲到转录和翻译的问题。于是引出了下面的问题。


寻找正确的脱氧核苷酸串


我们假设有很长的一串DNA,它的内容是这样的:

AGGCACGTTCATGTTAAAGCCATATCTTAGTCCAGTATCATCAGCATGCTAAGTCGTCA……

假设在这串DNA中,只有找到AGCATG子串的时候,转录才会开始。我们将介绍两种寻找脱氧核苷酸串的方法。

水杉的颜色变化所需要的酶,需要通过寻找启动子来完成   

一般来说,我们需要一个一个地比较,就像下面:

这种比较方法叫做BF算法,它很简单,但问题是它比较的次数很多,而且当上一次比较到不同的字符的时候,还要回去比较之前的字符。当字符数量多的时候,比较的次数将以几何级数增加。


KMP算法


于是我们引入一种新的算法,它可以减少不必要的回溯,同时根据已经匹配的长度选择快速移动的方法。

在这种情况下,我们需要对于子串(设定为t1t2t3……tn)引入一个next值的概念。我们规定,next[1]=0(第一个字符的next值为0),第j个字符的next值由下面决定。

next[j]=k,其中"t1t2……t(k-1)"=="t(j-k+1)t(j-k+2)……t(j-1)"。当k=j时,next[j+1]=next[j]+1,否则next[j+1]=next[k]+1。当没有满足"t1t2……t(k-1)"=="t(j-k+1)t(j-k+2)……t(j-1)"的k值时,next[j+1]=1。

这样的算法更加适合计算机操作,尤其是当字符更多,部分重复区段更多的时候,优势就很大了。例如这里,只需要比较到第12次就可以找到位于第43个字符的转录起点了。

我帮你一个个匹配,你只管一直向前,KMP算法就像这样    


寻找脱氧核苷酸串的拓展


当科学老师和数学老师、信息老师交流到DNA的结构和基因工程的时候,数学老师和信息老师感到很兴奋。原来我们熟悉的二进制,竟然在这肉眼几乎不可见的DNA中也存在,并且关系如此紧密。科学老师继续展开:

想象一下乘坐11号线,然后随机在一个站下车的感受    

假如是在细菌的环状DNA中切割有效片段用于基因工程,应该怎么办?

其实道理是一样的,只是当环状的时候,我们通过把DNA扩充到原来的2倍来思考问题。就像下面:

可以看到,目标脱氧核苷酸串在起始点附近的时候,扩充到原来的2倍能够更好找到目标。

数学老师之后也给他的学生讲了类似的开锁问题,就是在密码锁中的锁芯中有01234567的八进制数字和开锁密码条,只有当锁芯对应的数字和密码对上时才能开锁。

信息老师也发现了这个关系,给学生们讲了DNA和计算机的关系,DNA就像是计算机的指令的存储,而特异的蛋白质充当读取内容的磁针的作用。转录翻译的过程,本质就是转写二进制编码的过程。

这些都说明了生物学、信息学与数学的联通性。

想象一下花园里的门锁    
环状DNA就像操场的跑道,或者说是计算机的磁盘  


回到现实


2020年疫情网课期间,在数据结构的课堂上,曾经讲过核酸检测与KMP算法的关系。本文的故事虽然发生在未来,但类似的事情在现在已经发生着。脱氧核苷酸串的匹配已经在基因工程中应用,甚至存在于转录、DNA复制等生命运行的行为中。

2020年的春天,KMP算法让核酸检测更加高效  

核酸检测也是KMP算法的一个应用,KMP算法的高效性在数据量极大的脱氧核苷酸序列中获得了很大的发挥。

我们应该感谢D.E.Knuth、J.H.Morris和V.R.Pratt,他们创造的KMP算法,极大地帮助了生物学和信息学的发展,让生命也可以以信息化的方法解决问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容