文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE model)

文章梳理:文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)

原文链接
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

概述

GAM 的直接测量量的是基因组上任意两个位点出现在同一切片(co-segregation)的频率
作者指出,GAM数据与Hi-C等数据不同的地方在于,GAM数据本身就同时包含了“信号”和“背景”。即GAM不仅测量interacting locus pair 的 co-segragation频率,同时也测量了 non-interacting locus pair的频率。因此,可以通过单纯的统计学检验从随机背景中识别出significant interactions。为此,作者开发了SLICE模型,目的是给出当基因组上有两个位点以\pi(正文中的P_i)的频率互作时,在同一个切片中能同是观察到两位点的概率P所服从的分布以及期望。

模型推导

假设共有N个细胞核,每个细胞在被激光随机切割,产生一个厚度为h切片,测序后得到对应的一个 nuclear profile(NP)。
(作者在之后的模型中使用切片厚度 h =0.22µm, 总细胞核数 N = 408

Part I: 单位点模型

Figure S1.2 (a)
定义

考虑基因组的任意一个位点A
假设在一个切片中

  • 包含A(或B )的概率为==v_1==
  • 不包含A(或B )的概率为==v_0==

显然有,v_0+v_1=1

注意:在切片中包含A不代表的在最终的NP中能检测到A,因为还有DNA检出效率的问题。这部分作者会在之后考虑。

推导

如果该位点在细胞核中的位置是随机分布的。
当假设位点是一个没有体积的质点时A在切片中的概率为
\langle v_1 \rangle = \frac{ V_{NP} }{ V_{Nucleus} }
其中

  • V_{nucleus} 是细胞核的平均体积,假设所有检测的细胞核都是一个半径为R的球体,则 V_{nucleus}= {4 \over 3} \pi R^3
  • 其中V_{NP}是切片的平均体积,可首先计算出切片距离细胞核中心为z时的切片体积,然后沿z进行平均。

综上可解得
\langle v_1 \rangle = \frac{h}{h+2R}, \qquad \langle v_0 \rangle = \frac{2R}{h+2R}

但事实上,一定长度的DNA在空间中占有一定体积
假设长度为b 的一段DNA在空间中的占位是一个半径为r_b的球。则当 r_b \ll R时,可以使用 h_{eff}=h+2r_b替代原公式中的h
以上的\langle v_0 \rangle, \langle v_1 \rangle 改写为

Figure S1.8

最终得到
\langle v_1 \rangle = \frac{h_{eff}}{h_{eff}+2R} \qquad \langle v_0 \rangle = \frac{2(R-r_b)}{h_{eff}+2R} \tag 1

Part II:两位点模型

定义:

设两位点间互作的概率为\pi

  • AB 在某个细胞中发生互作时,取来自该细胞的切片,设该切片 中
    • 同时包含AB的概率为t_2
    • 仅包含A(或B) 的概率为 t_1
    • 既不包含A也不包含B 的概率为t_0
  • AB 在某个细胞中未发生互作时,取来自该细胞的切片,设该切片中
    • 同时包含AB的概率为 u_2
    • 仅包含A(或B) 的概率为 u_1
    • 既不包含A也不包含B 的概率为 u_0

显然有t_0+2t_1+t_2=1, \quad u_0+2u_1+u_2=1

推导:

根据全概率公式,在任意一个切片中,

  • 同时包含A,B 的概率 c_2=\pi t_2 + (1-\pi) u_2
  • 仅包含A(或B )的概率 c_1=\pi t_1 + (1-\pi) u_1
  • 既不包含A也不包含B 的概率为 c_0=\pi_0 t_0 + (1-\pi) u_0

容易推得
\begin{cases} c_0 + 2c_1 + c_2 = 1 \\ c_0 + c_1 = v_0 \\ \end{cases} \qquad \Rightarrow \qquad \begin{cases} c_1 = v_0 - c_0 \\ c_2 = 1 -2v_0 + c_0 \end{cases}

Part III:模型修正(I),二倍体生物情况

N个细胞核的切片中,包含iAjB 的细胞核个数为:N_{i,j}

对于二倍体生物,能检测到的参考基因组上的位点A 实际上对应同源染色体上的一对等位位点A_1,A_2,检测的B 对应同源染色体上的一对等位位点B_1,B_2,因此i,j \in\{0,1,2\},即
\begin{matrix} \hline & A_1 & B_1 & A_2 & B_2 \\ N_{0,0} & - & - & - & - \\ \hline N_{1,0} & + & - & - & - \\ & - & - & + & - \\ \hline N_{0,1} & - & + & - & - \\ & - & - & - & + \\ \hline N_{1,1} & + & + & - & - \\ & + & - & - & + \\ & - & + & + & - \\ & - & - & + & + \\ \hline N_{2,0} & + & - & + & - \\ \hline N_{2,1} & + & + & + & - \\ & + & - & + & + \\ \hline N_{2,2} & + & + & + & + \\ \hline N_{0,2} & - & + & - & + \\ \hline N_{1,2} & + & + & - & + \\ & - & + & + & + \\ \hline \end{matrix}

假设

  1. 与同一染色体的两位点互作的概率相比,位于不同染色体上的位点间的互作概率可以忽略不计。即考虑发生在(A_1,B_1)(A_2,B_2)的间的互作
  2. 发生在(A_1,B_1) 的互作与发生在(A_2,B_2)间的互作是相互独立的

综上可推出

\left\{\begin{align} \frac{N_{0,0}}{N} &= c_0^2 \\ \frac{N_{0,1}}{N} &= \frac{N_{1,0}}{N} = 2c_0c_1 = 2c_0(v_0-c_0) \\ \frac{N_{1,1}}{N} &= 2c_1^2 + 2c_0c_2 = 2[(v_0-c_0)^2+c_0(1-2v_0+c_0)] \\ \frac{N_{0,2}}{N} &= \frac{N_{2,0}}{N} = c_1^2 = (v_0-c_0)^2 \\ \frac{N_{1,2}}{N} &= \frac{N_{2,1}}{N} = 2c_1c_2 = 2(v_0-c_0)(1-2v_0+c_0) \\ \frac{N_{2,2}}{N} &= c_2^2 = (1-2v_0+c_0)^2 \\ \end{align}\right.

Part IV:修正(II)检出效率

在实际的实验中,并不是一个切片中的所有DNA都能被检出(都能出现在NP中)
假设检出效率为 \epsilon,此时在一个NP中检测到\alphaA, \betaB的概率为N_{\alpha,\beta}^{\epsilon}

\begin{split} N^{\epsilon}_{2,2} &= \epsilon^4 N_{2,2} \\ N^{\epsilon}_{2,1} &= \epsilon^3N_{2,1} + 2\epsilon^3 (1-\epsilon) N_{2,2} \\ N^{\epsilon}_{1,1} &= \epsilon^2N_{1,1} + 2\epsilon^2(1-\epsilon)(N_{1,2} + N_{2,1})+ 4\epsilon^2(1-\epsilon)^2N_{2,2}\\ N^{\epsilon}_{1,0} &= \epsilon N_{1,0}+ \epsilon(1-\epsilon)N_{1,1} + 2\epsilon(1-\epsilon)^2N_{2,1} + \epsilon(1-\epsilon)^2N_{1,2}+ 2\epsilon(1-\epsilon)^3N_{2,2}\\ N^{\epsilon}_{0,0} &= N_{0,0}+ (1-\epsilon)(N_{1,0} + N_{0,1}) + (1-\epsilon)^2N_{1,1} + (1-\epsilon)^3(N_{2,1} + N_{1,2})+ (1-\epsilon)^4N_{2,2} \end{split}
以上可简写为
N_{\alpha,\beta}^{\epsilon} = \epsilon^{\alpha+\beta} \sum_{i=\alpha, j=\beta}^{2}(1-\epsilon)^{(i+j)-(\alpha+\beta)}(\delta_{\alpha,1}\delta_{i,2}+1)(\delta_{\beta,1}\delta_{j,2}+1)N_{ij}
其中\delta是Kronecker indicator-function,即i==j\delta_{i,j}=1,否则\delta_{i,j}=0

Part V 最终模型

记在NP 中同时检测到AB,仅检测到A(或B ), 没有检测到AB 的概率依次为: m_2,m_1,m_0

\begin{split} \frac{m_0}{m} &= \frac{N^{\epsilon}_{0,0}}{N} \\ \frac{m_1}{m} &= \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \\ \frac{m_2}{m} &= 1 - \frac{N^{\epsilon}_{0,0}}{N} - \frac{ 2(N^{\epsilon}_{1,0} + N^{\epsilon}_{2,0}) }{N} \end{split}

consegregation ratio
f = \frac{m2}{m1+m2} = -\epsilon^2(1-v_0)^2+2\epsilon(1-v_0)

参数估计

Detection rate \epsilon

从数据中计算得到f,根据 f 计算公式,反解得到
\epsilon = \frac{1-\sqrt{1-f}}{1-v_0}

Figure S1.9

interacting pairs co-segregation t_i

认为当两位点互作时的间距 d_I \lesssim h 时, t_2=v_1

non-interacting pairs co-segeregation u_i

将所有locus pair按所在染色体及在染色体上的距离进行分组

\pi=0 代入公式计算得到co-segregation ratio的期望值 m_2/(m_1+m_2),并与每组的检测值进行拟合

解得位于第i条染色体上距离为g 的locus pair所对应的u_2

interaction probability \pi

v_i,u_i,t_i均为已知时,f 是关于 \pi 的函数

截屏2021-08-18 上午11.24.34.png

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容