原文链接:
Yan KK, Lou S, Gerstein M. MrTADFinder: A network modularity based approach to identify topologically associating domains in multiple resolutions. PLoS Comput Biol. 2017 Jul 24;13(7):e1005647. doi: 10.1371/journal.pcbi.1005647. PMID: 28742097; PMCID: PMC5546724.
算法思想
contact matrix → contact network
本文作者提出可以从图论中网络分析的角度,将Hi-C数据视作有权网络(weighted network),采用 network community detection probolem 的思想寻找 contact map 中的TAD。
对于一个特定resolution下的contact matrix,每个node代表一个bin (loci),两个bin之间的itneraction用weighted edge表示,优化目标是使 modularity 最小化。
但是在此基础上,TAD划分与经典的community detection 有2点不同
Point1:如何计算
在经典网络模型中,认为两个节点间形成边的概率仅与2个节点的度相关,即 。
而作者提出对于Hi-C网络,两个位点间的期望的contacts和位点间的距离成正比。
因此作者对原有的modulairty计算公式中的进行改写。
作者给出的模型中,对于一个给定的total contact为N的intra-chromosomal contact map ,
其中,
是一个用户可调参数,决定了识别得到的TAD的大小
是距离为的locus pair间的contacts的平均数
-
和 近似于k_i和k_j, 通过以下方程组可以解出:
Point2: TAD必须是基因组上一段连续的区域
使用经典的louvain算法计算得到的community由不连续的bin组成,因此作者对louvain算法进行了改造。
Customized Louvain algorithm
step0. Initialization
初始化:为每个bin分配1个独特的module label
step1. local optimization
每一轮,
按照随机顺序对所有bin进行遍历,
对于每个bin尝试将每个bin合并入其左邻或右邻所在的Module
如果合并后Q值增大则改变该bin所属的label
迭代执行上一步,直至所有节点的module label不再发生变化
step2. global optimization
将每个module视作一个单元,重复进行step1
Point3: 算法稳定性
考虑到Louvain算法具有不稳定性,作者对于一个给定的W进行多轮划分,并定义每个bin的boundary score 为:在多轮TAD划分中,bin i 被标定为domain boundary的比例。
作者选择 0.9 作为 cut-off,即认为 boundary score > 0.9 的bin为consensus boundary。
通过对参数 进行调节可以控制TAD的大小, 越大,检出的TAD size越小,数目越多
其他结果
作者使用MrTADFinder探究TAD boundary位点具有的特征
作者观察到
- TAD boundary处有H3K4me3等活跃性组蛋白修饰的富集,且 越小趋势越明显
- TAD boundary处有gene TSS的富集,且housekeeping gene的富集程度高于其他基因; 同样是 越小趋势越明显
- HOT(High TF-occupancy target)区域和XOT(Extreme TF-occupancy target)区域在TAD boudnary
- 部分TAD boundary 处的 mutation burden rate发生改变