Nanopore 数据分析软件tombo(三)Re-squiggle (Raw Signal Genomic Alignment)

The re-squiggle algorithm aligns raw signal (electric current nanopore measurements) to reference genomic or transcriptomic sequence.

re-squiggle算法的主要假设之一是提供的reference sequence是正确的。因此,对于poorly assembled reference或不同样品,an assembly polishing step(可能来自相同的数据/样品)可能会改善结果。

re-squiggle命令将向提供的read files(FAST5格式)添加信息(the mapped reference location and the raw signal to sequence assignment),并生成索引文件,以便在下游命令中更有效地访问文件。

NOTES:
在Tombo命令进行任何进一步处理之前,必须运行resquiggle命令。
注:Tombo目前包括DNA或RNA数据的默认canonical models(支持R9.4和R9.5;1D和1D^2;R9.*.1 chemistries)。目前不支持分析其他纳米孔数据类型(例如R7数据)。如果未明确指定DNA或RNA样本类型(通过--DNA或--RNA选项),将从raw read files中自动检测样本类型。

纳米孔read产生的电流信号数据称为squiggle(波形)。与参考序列相比, Base calling此波形信息通常包含一些错误。 re-squiggle算法定义了从波形(squiggle)到reference sequence的新分配(比对),因此称为 re-squiggle。

re-squiggle算法是Tombo框架的基础。re-squiggle算法将包含raw signal和相关base calls的read文件(FAST5格式)作为输入。base calls映射到基因组或转录组参考,然后根据expected current level model 将原始信号分配给参考序列。

TL;DR:

1.在modified base检测或其他tombo命令之前,tombo resquiggle命令必须在reads上运行。

2.必须提供包含FAST5 reads文件和基因组/转录组参考的目录。

3.参考序列可能是先前已知的或从该样本中发现的。

4.重要的是,假设参考序列是正确的,因此polishing以创建个性化参考可能会提高性能,特别是对于不同的样本或组装不良的ref。

5.Raw read FAST5文件必须包含basecalls。

6.使用tombo preprocess annotate_raw_with_FASTQs命令将一组FASTQs的basecall添加到raw read files中。

7.read files不需要包含Events数据(作为来自albacore的fast5模式输出)。

8.Tombo目前只支持DNA和RNA数据(包括R9.4和R9.5;1D和1D2数据;R9.*.1化学)。其他数据可能产生次优结果(例如R9.0或R7数据)。

9.DNA和RNA reads将被自动检测并相应地处理(显式设置为--DNA或--RNA)。

10.Tombo不执行spliced mapping。因此,必须将spliced mapping传递给RNA样本的re-squiggle命令。有关Tombo RNA处理的更多详细信息,请参阅RNA处理部分。

11.使用--processes选项在多个核上运行tombo resquiggle 。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,098评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,908评论 0 2
  • 今天上午陪老妈看病,下午健身房跑步,晚上想想今天还没有断舍离,马上做,衣架和旁边的的布衣架,一看乱乱,又想想自己是...
    影子3623253阅读 2,927评论 3 8