PacBio数据拆分之lima

一、背 景

PacBio最新三代测序仪Sequel II芯片实现了更高通路,同时已经支持barcode测序,这样方便混合多个组织、处理、物种等样本。

那么如何从pooling的数据中demultiplexing各个文库/样本的数据是需要考虑的问题。

早前,已经有开发者打造了一款用于数据拆分的软件,即lima。

[图片上传失败...(image-183c6e-1567041893469)]

image.png

github链接为: https://github.com/pacificbiosciences/barcoding

lima是针对PacBio单分子测序数据的一款标准的识别barcode序列的工具,从 SMRT Link v5.1.0就开始引入,使用简单,处理速度很快(500G原始subreads拆分约6小时)。可拆分raw subreads和CCS reads。

二、文库结构

由于PacBio建库方式与二代测序不同,其建库方式也存在多种形式。

例如,使用序列特异的引物构建哑铃型文库(RNA):

[图片上传失败...(image-9120ee-1567041893469)]

image.png

更进一步,官方RNA建库流程建库得到引物、barcode序列结构如下:

[图片上传失败...(image-4c011f-1567041893469)]

image.png

由引物和16-bp的barcode组成后接poly T,同时官方提供了24条primer-barcode序列组合,部分序列如下(PacBio官方下载):

[图片上传失败...(image-e91204-1567041893469)]

image.png

而,DNA文库结构就简单的多,仅由引物和相同的barcode组成:

[图片上传失败...(image-a6e863-1567041893469)]

image.png

三、拆分及注意事项

那么针对普通DNA的建库测序,其拆分只需要提供barcode序列进行匹配即可,故lima的使用也更为简单:

DNA数据拆分:

lima --split-bam-named in.bam barcode.fasta split.bam

barcode序列文件barcode.fasta:

bc1000

CTCTACTTACTTACTG

bc1001

GTCGTATCATCATGTA

bc1002

AATATACCTATCATTA

而针对RNA建库,由于其添加了5`primer可以用于判断RNA分子是否为全长,其使用方法如下:

lima --split-bam-named in.bam barcode.fasta split.bam

需要注意的是RNA建库的barcode是在逆转录的时候加进去的,序列应当为反向互补的,同时其还存在5` primer,barcode序列文件barcode.fasta:

primer_5p

AAGCAGTGGTATCAACGCAGAGTACATGGGG

bc1017_3p

ATATAGCGCGCGTGTGGTACTCTGCGTTGATACCACTGCTT

bc1018_3p

CACAGTGAGCACGTGAGTACTCTGCGTTGATACCACTGCTT

需要注意,RNA的barcode列表写法,必须有5引物,后缀为_5p,3引物必须有3p作为后缀;5引物是固定的,3引物由引物和barcode构成(反向互补)

拆分完成后会生成拆分后的bam及其索引文件:

split_in.primer_5p--bc*_p3.bam

split_in.primer_5p--bc*_p3.bam.pbi

split_in.primer_5p--bc*_p3.subreadset.xml

其命名以前缀、5-3引物名称连接组成。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容