【Bionano】理解Bionano及其原始BNX数据

前面写过如何用HiC数据进行挂载的,今天开始系统学习一下bionano(也可以做挂载这一步),因为最近接触的一个项目里面除了HiC数据,还有Bionano数据,网上关于HiC的帖子和笔记很多,关于bionano的还比较少。我也主要学习这个博主的(https://www.jianshu.com/p/c4735c266fc7)。

Bionano技术简单来说,就是给分子加上荧光标记,然后拍照,所以最原始的下机数据就是TIFF格式,但是我们拿到的一般都是经AutoDetect/IrysView 转换过的BNX格式。

百度上解释:Bionano光学图谱展现了天然DNA分子的真实景观。利用SP DNA分离试剂盒获得超长DNA分子,用直接标记染色法(DLS)进行无损荧光标记,通过纳米微流控芯片将每一条DNA分子线性化展开,并进行高分辨率荧光成像,为基因组学下游应用提供原始DNA景观。这一真实的基因组物理图谱,为基因组组装提供了染色体尺度的框架,并能高效检测到大片段纯合子和杂合子结构变异。

The Bionano Genomics BNX file is a raw dataview of molecule and label information and quality scores per channelidentified during a run. BNX v1.3 supports one or two label channels (colors).

简单的说,BNX记录的是在泳道中每个单分子原始信息,包括分子中的标记信息和每个泳道的质量得分。

和生信领域常见的SAM/VCF格式类似,BNX也分为两个部分,元信息行和数据行。

 

元信息行中比较容易理解的行是下面几个,基本不需要解释。下面是我数据的格式:

# BNX File Version:     1.3   //版本信息

# Label Channels:       1    //1表示单酶 2 表示双酶

# Nickase Recognition Site 1:   cttaag;bngflgr001  //酶切识别位点

# Bases per Pixel:      500   //分辨率

"rh"其实是RequiredHeaders的缩写,记录的是"Run Data"中一定要有的列,其实这一列类似于vcf的title列了。其中:

SNRFilterType: 信噪比的过滤类型,如果有这一列,就表示你后续就不用做SNR Filter

MinMoleculeLength: 所允许的最短的分子长度

MinLabelSNR:所允许的最低标记的SNR

而"Run Data"每一行表示的是不同的队列(corhart)或者称之为泳道。

目前的主流Bionano设备已经是Sapjyr,BNX文件产生于Saphyr,经由Bionano Access 下载到本地。

===数据过滤和评估====

软件安装:从https://bionanogenomics.com/support/software-downloads/下载Solve软件。(这个软件包有点大,差不多10G了)

tar -zxvf Solve3.3_10252018.tar.gz

解压缩后里有如下几个文件夹

 

cohortQC: 主要是MQR运行脚本

HybridScaffold: 单酶系统和双酶系统混合组装工具脚本

Pipeline:从头组装的脚本

RefAligner:用于序列联配和组装

RefGenome:hg19和hg38的cmp文件

SVMerge: 用于合并单酶系统得到SV结果

UTIL: 运行从头组装的一些实用shell脚本,可以根据需要进行修改

VariantAnnotation: 对找到的SV进行注释

VCFConverter: 将SMAP和SVMerge的结果输出成VCF格式

数据过滤:

grep "# Run Data" all.bnx | wc -l

我们发现发现数据集来自于1120个通道。

 

Label SNR 过滤: 过滤信噪比较低的分子,信噪比低意味着质量差。有如下几个情况,不需要做LabelSNR 过滤,或在你BNX文件的"#rh"部分有"SNRFilterType"定义,就不需要过滤

 

我们的数据不需要过滤。

Bionanao Access 1.2 以后新的图像检测算法得到的BNX文件不需要SNR过滤.

对于AutoDetect或Irysview处理过的数据,默认会进行label SNR过滤,处理之后就是Molecules.bnx。

perl  /gpfs03/home/jingjing/software/Solve_3.3.1/cohortQC/10252018/filter_SNR_dynamic.pl-i RawMolecules.bnx -o Molecules_filter.bnx -P diag_hist.pdf 

分子长度过滤: 过滤短与某个阈值的分子,公司一般会只保留100kb或120Kb以上的分子(取决于数据量,数据越多,阈值越高)

/gpfs03/home/jingjing/software/Solve_3.3.1/RefAligner/7915.7989rel/./RefAligner -i all.bnx -minlen 120 -merge -o output -bnx

运行log中显示:

Final maps=3430511, sites=149096069, length= 745879562.262kb (avg= 217.425 kb, label density= 19.989 /100kb)

表明过滤后,还有343万条分子,涉及到14909万标记,总测序量为745G,标记密度是19.989/100kb,平均分子长度大于217Kb.. 测序深度等于总测序量除以基因组大小,这是我们基因组大小4G计算,那么深度就是180X。

注意:过滤后平均分子长度应大于200Kb。标记密度不能过高,过高会因分辨率不够而无法区分,过低则无法用于比对。一般DLS在10~25 , NRLS在8~15。

组装评估: 在正式组装之前,我们还需要判断下当前数据是否满足组装要求。为了获取所需的评估参数,得将过滤后的BNX文件和基因组模拟模切得到的CMAP进行比对。

 

第一步: 对基因组序列模拟酶切,得到CMAP文件。

perl /gpfs03/home/jingjing/software/Solve_3.3.1/Pipeline/10252018/fa2cmap_multi_color.pl -i /gpfs03/bioinfo/20210607_K326/ -e cttaag 1

第二步: 用align_bnx_to_cmap.py进行比对。bionano光学图谱比对的基本原理是基于标记的相对位置。

python /gpfs03/home/jingjing/software/Solve_3.3.1/Pipeline/10252018/align_bnx_to_cmap.py --prefix tobacco  --mol output.bnx  --ref assembly_k326.HiC_scaffold_CTTAAG_0kb_0labels.cmap --ra /gpfs03/home/jingjing/software/Solve_3.3.1/RefAligner/7915.7989rel  --nthreads 40  --output prealign --snrFilter 2 --color 1

其中:“contigs/alignmolvref/alignmol_log_simple.txt”里的“Fractionof aligned molecules”和"Effective coverage of reference (X)". 我们要判断数据是否符合最低的比对率。比对率和基因组实际情况有关(组装质量,错误率,重复坍缩情况)。对于人类基因可以达到90%以上,对于不怎么完整度的基因组,即便Bionano的质量很高,比对率可能也只有30%~40%(仅统计150 kb 的分子)

可以看出,我们数据的比对率大概在25%左右。

本文使用 文章同步助手 同步

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容