UMI 去重矫正 —— gencore

介绍

gencore 能够对双端测序的 NGS 数据进行 read 去重,消除文库制备和测序过程中引入的测序错误。

gencore 是用 C++ 写的,相比于 Picard 等其他工具,具有更快的速度、更少的内存消耗.

同时,能够处理包含 唯一标识符 unique molecular identifiers(UMI) 的测序数据。

原理

gencore 的原理简单来说就是:

  1. 首先根据每条 read 的染色体 id,起始位置,以及模板长度末端位置进行分组
  2. 然后,在每个分组内,根据 umi 是否相同进行聚类
  3. 在每个类中,双端测序的 read1read2 分开分别进行去重矫正
  4. 去重矫正: 根据碱基出现的频率进行位点矫正,在频率过低时加入了参考基因组对应位置的碱基进行矫正

安装

安装使用该软件,需要保证环境中有 htslibzlib 两个库

1. 通过 conda 安装

conda install -c bioconda gencore

2. 下载二进制文件

二进制文件下载地址:http://opengene.org/gencore/gencore

wget http://opengene.org/gencore/gencore
chmod a+x ./gencore

:只适用于 Linux 系统,CentOS/Ubuntu

3. 源码编译

# step 1: 从 GitHub上下载源码,也可手动下载解压
git clone https://github.com/OpenGene/gencore.git

# step 2: 编译
cd gencore
make

# 安装
make install

使用

1. 参数解析

options:
  -i, --in                   输入的 sorted bam/sam 文件. 
  -o, --out                  输出的 bam/sam 文件. 
  -r, --ref                  参考基因组 fasta 文件 (.fa/.fasta file)
  -b, --bed                  bed 捕获区域文件,默认为空
  -u, --umi_prefix           UMI 序列的前缀
  -s, --supporting_reads     read 支持数,大于该值的 read 才会输出 推荐 1~10, 默认为 1.
  -a, --ratio_threshold      碱基频率阈值,小于该阈值,将通过参考碱基进行矫正,推荐0.5~1.0, 默认为 0.8
  -c, --score_threshold      碱基分数,低于该阈值,将通过参考碱基进行矫正,推荐 1~20, 默认为 6
  -d, --umi_diff_threshold   umi差异阈值,小于阈值内的 umi 认为是相同的, 默认为 2
      --high_qual            高质量分数,默认 30 代表 Q30
      --moderate_qual        中等质量分数,默认 20 代表 Q20
      --low_qual             低质量分数,默认 15 代表 Q15
      --coverage_sampling    采样率,用于覆盖率统计. 默认t 10000 代表 1/10000
  -j, --json                 json 输出报告格式文件名
  -h, --html                 html 输出报告格式文件名
      --debug                输出一些 debug 信息
      --quit_after_contig    设置最大的处理的染色体 id,用于 debug,默认为 0,不做限制
  -?, --help                 打印帮助信息

2. 简单使用

gencore -i in.sort.bam -o out.bam -r hg19.fa

3. 输出文件

json

report.json

html


report.html

UMI 格式

  • 如果 readquery name 是:
NB551106:8:H5Y57BGX2:1:13304:3538:1404:GAGCATAC

umi 前缀为空

  • 如果是:
NB551106:8:H5Y57BGX2:1:13304:3538:1404:UMI_GAGCATAC

umi 前缀为 UMI

注意gencore 对有些 read 去除不干净,需要在 gencore.cpp 中修改第三个循环。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容