MAS-seq技术原理(PacBio)

1. 技术产生背景

PacBio构建这种文库的一个主要原因是,在其测序芯片中有很多零模波导孔(ZMW),每个孔在测序时只能测一条DNA分子,这样其测序通量就受到孔数和文库长度的限制。近些年PacBio确实也在不停的增加ZMW孔的数目,从而来提升通量,ZMW孔的数目也从刚开始的3千个,一路增加到15万个、100万个和800万个,即将在2023年上市的Revio机型,单个芯片会包含2500万个ZMW孔。

当然这对于DNA分子较长的文库,和所需测序数据量较高的项目来说没有什么影响。但是实际中像细菌16S项目,全长的16S也只有1.5kb,或者转录组文库,反转录后的DNA分子长度平均也就1.5-2kb左右。就目前测序的酶读长,对于HiFi 15kb的文库数据,平均测序准确性可以达到QV30左右,即千分之一的错误率。如果文库较短,虽然可以获取更多的pass数,经过CCS矫正后具有较高的准确性,但是分子长度较短会使有效数据量变少,所以MAS-seq应运而生。

2. 文库构建过程

MAS-seq文库构建原理简单介绍如下:

  1. 构建样本的短片段文库,并将其平均分为多个独立的子文库,下图1是一个单细胞转录组文库构建过程,它分为了4个独立的子文库;
  2. 在每个文库中两端添加不同的接头,例如cDNA1文库的5'和3'分别添加AB接头,cDNA2文库的DNA分子5‘和3’分别添加B'C接头,cDNA3添加C'D接头,cDNA4添加D'E接头。再将这四个文库混成一个文库,由于BB'、CC'、DD'反向互补,连接生产一个较长片段文库;
  3. 目前PacBio官方提供8个子文库接头试剂盒,在15kb片段长度时就可以HiFi文库可以得到较高测序质量的数据,那么平均子文库的长度长度15/8约等于2kb;
图1. 单细胞转录组MAS-seq

3. MAS-seq数据拆分

PacBio测序仪可以支持Subreads类型下机数据和HiFi类型下机数据。两者之间的区别是,HiFi数据是将同一个ZMW孔中相同分子多次测到的Subreads经过合并纠错后生成的,具有较高的准确性,这一步转换称为CCS过程。在实际项目中,建议和服务商要求提供HiFi数据,因为这一转换过程非常消耗CPU资源。在CCS过程中,软件是不会去除MAS-seq数据中的接头序列的。为了将接头去除,获取实际DNA分子的碱基序列,可以使用软件Skera。拆分后的数据通常称为Segmented reads.


图2. Skera对MAS-seq数据拆分

5. 演示

官方提供了一组MAS-seq文库结构的HiFi数据,我们可以拿过来学习,了解具体的输入和输出数据格式,以及Skera软件的用法。

# download HiFi reads for MAS-Seq PBMCs run on Sequel IIe
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/DATA-SQ2-PBMC_5kcells/0-CCS/m64476e_220618_014917.hifi_reads.bam

# download MAS adapter fasta
wget https://downloads.pacbcloud.com/public/dataset/MAS-Seq/REF-MAS_adapters/MAS-Seq_Adapter_v1/mas16_primers.fasta

# run skera split to generate segmented reads
skera split m64476e_220618_014917.hifi_reads.bam mas16_primers.fasta segmented.bam

其中mas16_primers.fasta为包含adapter序列文件,文件中接头序列的存放顺序,必须按照多个小片段文库连接生成最终长片段文库中,adapter从5‘到3’的顺序存放。

4. 输出文件

skera split 运行完成后会生成很多文件,它们包含不同信息。

文件名称 内容说明
segmented.bam 去除adapter后的测序数据
segmented.non_passing.bam 两端adapter不合理的序列
summary.csv 去除adapter后数据的统计信息
ligations.csv 5'和3'不同adapter组合的统计
read_lengths.csv HiFi数据和Segmented reads长度统计信息

*summary.csv 输出文件格式说明:

Input Reads,2622891  #输入HiFI数据的总reads数吗
Segmented Reads (S-Reads),40131832  #被分割后得到segmented Reads总数
Mean Length of S-Reads,672 #segmented reads平均长度
Percentage of Reads with Full Array,86.3247  #拆分时一条HiFi reads得到的segmented reads数与文库设计一致的比例,本实例中包含15个segmented reads的HiFi reads数目占输入条数的比例
Mean Array Size (Concatenation Factor),15  #文库构建时完整HiFi reads理论包含segment数目

拆分数据时只输出按照adapter顺序连接的segment reads,例如官方提供的测试数据包含16个adapter,按照1-2,2‘-3,3’-4 ... 15‘-16 的方式加入到小片段文库中,然后通过2-2‘,3-3’ ... 15-15'粘性末端连接的方式将15条segment reads连接成一条长序列用于测序。由于在小片段文库中添加adapter是独立的,所以不应该产生1-3’、3-6‘这样连接方式,在拆分时也不回输出,下例中可以看出顺序连接的数目也是最多的。

sed 's/,/\t/g' m64476e_220618_014917.skera.ligations.csv|sort -k3,3rn | awk '{sum+=$3;print $0,sum}'|less -S

1       2       2579711 2579711
2       3       2569629 5149340
3       4       2555360 7704700
4       5       2548285 10252985
5       6       2535822 12788807
6       7       2522046 15310853
7       8       2509664 17820517
8       9       2502244 20322761
9       10      2495860 22818621
0       1       2494407 25313028
10      11      2490646 27803674
11      12      2486362 30290036
12      13      2481755 32771791
13      14      2478636 35250427
14      15      2475053 37725480
15      16      2406352 40131832
#只输出上面连接的segmented reads
2       4       8220 40140052
7       16      3157 40143209
6       16      2915 40146124
1       3       2885 40149009
5       16      2327 40151336
...
...

segment.bam文件中包含去除adapter的数据,Skera还会在每个序列后面添加很多tag以表示不同的信息。

BAM tag名 类型 含义 举例
di i segment的编号 di:i:0
qs i segment在原始HiFI数据中的起始位置 qs:i:16
qe i segment在原始HiFI数据中的终止位置 qe:i:450
dl i 5'端adapter在adatper fasta文件中的索引 dl:i:0
dr i 3'端adapter在adapter fasta文件中的索引 dr:i:1
ds b binary json,用于将segment还原为HiFi数据 ds:b:10,21,23

另外,被分割生成的segment reads可以反向生成连接到一起的HiFi数据,由于去掉了非顺序连接的segments reads,所以生成的undo bam会比原来的小:

skera undo *.skera.bam *undo.bam   #undo bam就是反向生成的HiFi数据的bam

6. 参考资料

  1. https://www.pacb.com/products-and-services/applications/rna-sequencing/single-cell-rna-sequencing/
  2. https://skera.how/read-segments.html
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容