Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling

摘要:设计gc含量恒定且满足寡核苷酸与Watson-Crick互补物之间汉明距离约束的大型寡核苷酸文库，对于降低杂交错误具有重要意义DNA计算，DNA微阵列技术，分子条形码技术。人们研究了构建这种寡核苷酸库的各种技术，从通过随机局部搜索的算法构建到通过编码理论的理论构建。提出了一种新的随机局部搜索方法，提高了搜索效率

化学合成的寡核苷酸(短单链DNA)作为DNA微阵列技术中的探针[3]、[4]和分子条码[5]-[7]中的标记，是DNA计算[1]、[2]信息存储的重要结构。DNA在这些应用中的关键特性是寡核苷酸与它们的沃森-克里克互补物特异性杂交并形成稳定的双链[8]的趋势。

为了降低寡核苷酸文库错误杂交的概率，必须满足的基本约束条件中，以下是特别重要的:
(i)文库中的两个寡核苷酸必须不同。
(ii)库中的寡核苷酸必须不同于库中的另一个寡核苷酸(Watson-Crick)的补体。
(iii)文库中每个寡核苷酸都有相似的熔化温度。
(iv) 寡核苷酸不能以使其失去化学活性的方式折叠回自身。

摘要针对寡核苷酸序列设计问题，提出了一种新的随机局部搜索方法。该方法得到了许多破纪录的寡核苷酸文库。通过计算图上最大群的穷举搜索算法，得到了几个最优寡核苷酸库.
2,定义&符号
我们将寡核苷酸建模为字母表上的序列
Σ= { A、C、G、T }。
如果σ∈Σn,序列的元素的位置i,用σi来标示σ。两个序列之间的汉明距离σ,τ∈Σn,表示dH(σ,τ),,也就是说位置的数量是不同的，当σ和τ不相同
d H (σ,τ) = |{1 ≤ i ≤ n : σ i 6= τ i }|.

We model oligonucleotides as sequences over the alphabet
Σ = {A,C,G,T}. If σ ∈ Σ n , the element in position i of the
sequence σ is denoted σ i . The Hamming distance between
two sequences σ,τ ∈ Σ n , denoted d H (σ,τ), is the number of
positions where σ and τ differ, that is,
d H (σ,τ) = |{1 ≤ i ≤ n : σ i 6= τ i }|.

image.png

此后，小写的希腊字母被用来表示寡核苷酸，如果没有其他说明，则假定它们属于一个通用集合ζ.
一个n-m的寡核苷酸库ζ ⊆ Σ n满足所有要求、

image.png

被称为一个 (n,d,w)-DNA密码。注意,第二个约束也同样为了τ=σ。如果ζ⊆Σn只满足汉明距离与恒gc含量约束，我们称ζ为弱(n,d,w)-DNA密码。

三。设计了一种算法
用于确定大小为A的(n,d,w) DNA编码的随机局部搜索算法通常采用以下框架。我们从一个子集开始ζ⊆ Σⁿ 然后我们反复修改ζ，直到我们得到一个长度为A的(n,d,w) DNA code。修改步骤包括移动ζ到一个随机的邻域ζ’, 其接受概率由其接近大小为A的(n,d,w)-DNA编码决定。设计DNA编码随机局部搜索算法的关键在于:

1.良好的初始化程序;

2.N(ζ)为ζ的邻域;

3.成本(ζ)，表示ζ与解决方案的接近程度;

4.f，接受概率函数;

5.合理有效的stop标准

最后编辑于：2018.12.11 21:32:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling

Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling

相关阅读更多精彩内容

友情链接更多精彩内容