Post Bisulfite Adapter Tagging (PBAT),是Bisulfite建库过程中先转化后加接头的一种建库方式。
提要:
PBAT文库特点
PBAT比对率为何如此之低,令人发指
PBAT数据如何优雅的比对
由于PBAT文库包含大量的嵌合的reads,PBAT文库数据相较于Whole Genome Bisulfite-Seq(WGBS)文库,其比对率明显偏低。
早前,PBAT方法(单端数据)公布后,人们立即进行方法的优化(针对极低起始量)。但人们也很快注意到双端实验数据的比对率相当低。开始意识到接头污染和低质量basecall的问题,但直到今天,即使trim掉接头、低质量碱基后,仍然可以遇到低比对率的情况。
# 我的体验是比对率一直很低,很好双端数据能上60%。
一个案例:
使用Trim Galore去掉reads开始的建库接头(建库时强制加入的接头,有protocol建议10bp);并按10,20,30 etc长度截掉3`端的碱基后再进行比对。随着reads长度的截短,比对率缓慢上升(尽管较短的reads难以进行比对且会造成多重比对率的上升)。
“这说明一定是什么东西阻碍reads比对到基因组”
一个探究
首先怀疑测得的插入片段可能跨越不同的基因组序列(现在不正流程明星搞跨界捞金么),可能建库中随机引物和链延伸造成的。为了检测这些嵌合reads是否真的存在于Read1和Read2,对比对上的reads进行分组(按照read ID)。
这时借助SeqMonk 软件观察比对的情形,就像输入一个类似HiC数据的BAM文件一样,可以观察到配对reads的比对关系。下图展示的是全部配对reads的定量结果,一端(Read1)比对到了染色体1,其中红色是高数目的配对reads,蓝色是低数目的配对reads。这表明,大部分的Read2同样比对到了染色体1上,也即有效的双端比对。
然鹅,很明显的看出有相当多的reads对是反式的,read1位于染色体1而read2位于其他染色体。这个数据案例中trans-reads的比例占全部双端比对数据的30%,确实是一个大问题。
如何最好的比对
这里使用非常流行的bismark比对软件,当然其他类似的软件也可以。
1、双端比对:加 --pbat 参数和--unmapped(输出未比对的Read1和Read2)。双端比对的reads即可用于methylation calling,地球人都知道;
2、未比对上的Read1继续采用单端比对模式(加--pbat参数);
3、未比对上的Read2继续采用单端比对模式(默认参数,即链特异性模式)。
单端比对的R1和R2随后进行正常的methylation calling。随后PE和SE的methylation calling结果合并到一起再使用bismark2bedGraph进行下游的处理。
PBAT数据原本比对率就低,进行SE就是为了挽救挽救挽救一些数据,单端比对的数据们也是追求进步的人士。
# 个人认为PE、SE比对后合并比对结果再进行deduplication和methylation calling也是可行的。
软件列表
软件地址已经写到脸上了
Trim Galore:数据接头trim
Cutadapt:过滤接头、长度截取等
Bismark:bisulfite数据比对
SeqMonk:比对可视化
参考
站在巨人的肩膀上,比巨人看的更远。
https://sequencing.qcfail.com/articles/pbat-libraries-may-generate-chimaeric-read-pairs/