前言
在一些实验中,例如ChIP-seq 或者 CUT&Tag 中会加入一些外源DNA或者染色体,把这些外源DNA或者染色体当作定量来归一化实验数据.

image.png
CUT&Tag_Spike-in分析
参考CUT&Tag Data Processing and Analysis Tutorial
- 总体的思想是把测序数据比对到我们研究的物种和加入的外源DNA或者染色体, 这样我们就能知道具体有多少的reads 比对到研究的物种,多少的reads 比对 外源DNA或者染色体.
以参考手册提供的数据的第一行为例
Histone Replicate SequencingDepth MappedFragNum_hg38 AlignmentRate_hg38 MappedFragNum_spikeIn AlignmentRate_spikeIn DuplicationRate EstimatedLibrarySize UniqueFragNum scaleFactor
<fctr> <chr> <dbl> <dbl> <chr> <dbl> <chr> <chr> <dbl> <dbl> <dbl>
K27me3 rep1 2984630 2859520 95.81% 235 0.01% 4.85% 28683768 2720824.7 42.5531915
K27me3 rep2 2702260 2606295 96.45% 487 0.02% 1.04% 125234408 2579072.2 20.5338809
K4me3 rep1 1581710 1494122 94.46% 375 0.02% 6.61% 10843753 1395426.3 26.6666667
K4me3 rep2 1885056 1742005 92.41% 4442 0.24% 2.70% 31790431 1694925.6 2.2512382
IgG rep1 2127635 1747065 82.11% 75733 3.56% 81.34% 327661 326072.2 0.1320428
IgG rep2 2192908 1992929 90.88% 79123 3.61% 34.34% 2192721 1308573.1 0.1263855
我们可以看到比对到外源DNA或者染色体的reads是235,由于外源DNA或者染色体不会和目标蛋白互作,因此我们可以用一个常量去归一化我们的数据.
所以scaleFactor这样计算:
scaleFactor = 10000/235
注: 具体的标准化方法可能会不一样,但总体的思想是加入其他染色体作为一个定量,去归一化我们所有的样本.
对于ChIP-seq Spike-in的分析也推荐参考

image.png
对应的doi: https://doi.org/10.1038/s41587-024-02377-y