IPP 方法到底是干嘛的?
IPP 方法是在回答一个问题:
👉 如果一个增强子(CRE)在物种 A 中找不到直接的序列同源片段,
那它在物种 B 中“可能在什么位置”?它是不是“间接保守的”?
核心思想只有一句话:
即使序列变了,只要相对于邻近“锚点”的位置关系没变,这个调控元件也可能是保守的。
二、为什么要发明 IPP?(传统方法的痛点)
传统做法(你已经熟悉):
用序列比对(BLAST / lastz)
能比对上 → 直接保守(DC)
比对不上 → 当成不保守(NC)
问题:
增强子进化很快
序列可能已经变得完全对不上
但功能和“在基因附近的位置”可能仍然是对的
👉 序列不保守 ≠ 功能不保守
IPP 就是为了解决这个问题。
三、IPP 的核心假设(非常关键)
你文中这句话其实是“灵魂”👇
一个基因组中,任何位于可比对区域侧翼区块之间的不可比对元件,
都将位于另一个基因组中的相同相对位置
翻译成人话:
如果一个增强子夹在两个“能对齐的区域”中间,
那在另一个物种中,它大概率也夹在那两个对应区域之间。
这两个能对齐的区域,叫:
👉 锚点(anchor points)
四、什么是锚点(Anchor)?先搞懂这个
锚点 =
两个物种中,能明确序列同源、能对齐的 DNA 片段
通常是:
保守的非编码序列
或者外显子
或者高度保守的调控区
它们的作用:
给不可比对的区域“定坐标系”
五、IPP 方法是怎么“搬运坐标”的?
场景设定
ref:参考物种(如人)
qry:目标物种(如小鼠)
ref 中有一个 CRE(增强子)
这个 CRE 在 qry 中 序列完全对不上
那怎么办?
Step 1:找 CRE 左右最近的锚点
在 ref 物种 中:
[ anchor_L ] ---- d1 ---- [ CRE ] ---- d2 ---- [ anchor_R ]
记录:
CRE 到左锚点的距离 d1
CRE 到右锚点的距离 d2
Step 2:在 qry 物种中找到对应锚点
在 qry 物种 中:
[ anchor_L' ] -------------------- [ anchor_R' ]
锚点 L ↔ L′
锚点 R ↔ R′
(它们是序列同源的)
Step 3:按“相对位置比例”推断 CRE 的位置
不是简单拷贝距离,而是 按比例映射:
CRE 在 ref 中处在两个锚点中间的相对位置
→ 在 qry 中也放在两个锚点中间的相同相对位置
得到:
d1′(CRE 到左锚点的推断距离)
d2′(CRE 到右锚点的推断距离)
六、关键判定指标:d1 + d2 是什么?
文中提到的:
d1 + d2
指的是:
CRE 到最近两个锚点的“总不确定距离”
这个值越小:
CRE 被锚点“夹得越紧”
推断位置越可靠
七、三种结果分类(你文中最重要的表)
1️⃣ 直接保守(DC, directly conserved)
d1 + d2 ≤ 300 bp
含义:
CRE 本身或非常接近同源序列
实际上接近“传统序列保守”
✔ 最可靠
2️⃣ 间接保守(IC, indirectly conserved)
300 < d1 + d2 ≤ 2500 bp
含义:
CRE 序列对不上
但在两个物种中:
位于相同锚点之间
相对位置合理
✔ IPP 的核心创新成果
3️⃣ 不保守(NC, non-conserved)
d1 + d2 > 2500 bp
含义:
离锚点太远
位置推断不可靠
✘ 不认为是保守 CRE
八、为什么要引入“桥接物种”(bridging species)?
这是 IPP 的第二个创新点。
问题场景
ref(人) ↔ qry(鱼)
进化距离太远:
能对齐的锚点很少
CRE 离最近锚点 非常远
d1 + d2 很大 → 不可靠
解决办法:加一个“中间物种”
例如:
人 ——> 小鼠 ——> 鱼
流程:
人 → 小鼠:计算 d1 + d2
小鼠 → 鱼:再算一次
总距离:
d1 + d2 + d3
📌 好处:
每一步进化距离更近
锚点更多
CRE 到锚点的距离更短
整体判断更可靠
九、IPP 的两个真正创新点(你总结得是对的)
我帮你“学术化润色”一下:
创新点 1
不依赖序列相似性,而利用相对基因组位置的保守性
即使 DNA 序列完全不同,也能鉴定潜在同源 CRE
创新点 2
通过多桥接物种递归映射,提高远缘物种间推断的可靠性
将长进化距离问题分解为多个短距离问题
十、最终一句话总结(可直接写在 Result 里)
IPP 方法通过相对于保守锚点的相对位置映射,将参考物种中的 CRE 投射到目标物种的基因组坐标中,从而识别出即使在序列层面不可比对、但在基因组结构层面仍保持位置保守的间接保守顺式调控元件。