1.什么是K-mer?
mer: 分子生物学领域中意义为:monomeric unit ( mer) :单体单元,相当于nt或者bp。通常用于双链核酸中的单位,100 mer DNA相当于每一条链有100nt,那么整条链就是100bp。
k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k+1个k-mers.
它的定义是:是指将一条序列分成包含k个碱基的子字符串,如果reads长度为L,k-mer长度设为k,则产生的k-mers数目为:L-k+1,例如序列AACTGACT,设置k为3,则可以将其分割为AAC ACT CTG TGA GAC ACT共6个k-mers。其中k一定是奇数,如果是偶数遇到回文序列可能会产生完全相同的k-mers。
(总结)即k-mer表示将reads划分为多少个长度为k的短片段,如设置k=39,即k-mer为39-mer,一条150bp的read,共产生150-39+1=112个长度为39的短片段
2.k-mer选择对基因组组装的影响
k-mer大小的选择对基因组组装有多种影响。这种影响在较大和较小的k-mers之间差异大。因此,必须了解不同的k-mers,以便选择一个合适的平衡影响。
2.1较小的k-mer
较小的k-mer将减少图中存储的edges数,因此有助于减少存储DNA序列所需的内存。较小的k-mer将增加所有k-mer重叠的机会,并获得构建De Bruijn图所需的子序列。较小的k-mer会面临多顶点通向单个k-mer的风险。这会导致基因组组装更为困难,因为遍历的顶点数变多,从而存在更高水平的路径歧义。随着k-mer变小,信息也会丢失。较小的k-mer无法解决DNA中出现小微卫星或重复序列问题。
2.2较大的k-mer
较大的k-mer会增加图中存储的edges数,因此会增加存储DNA序列所需的内存。
增加k-mer后顶点的数目会减少。这有助于基因组的构建,因为图中的路径变少了。
较大的k-mer也会有较高的风险,即没有从每个k-mer出发的向外顶点。这是因为较大的k-mer会增加它与另一个k-mer不重叠k-1的风险。----reads的脱节,并导致大量较小的contigs。
较大的k-mer也有助于缓解小的重复区域的问题。
2.3 总结
不同物种的k-mer是很不同的
长k-mer具有很强的物种特异性
不同的k-mer,组装的效果不同
参考:
https://www.jianshu.com/p/c7adf127ff36
https://www.jianshu.com/p/031de137bf38
https://www.jianshu.com/p/0eb4997d6d79
来源:简书