高通量测序的数据处理与分析指北(二)--宏基因组3

博客原文


宏基因组宿主去污染

在上一篇文章中,详细的介绍了宏基因组如何下载以及如何使用fastp进行质控,本篇文章主要聚焦于如何对宿主污染进行去除。如何判断存在宿主污染的方法在上一篇文章中有提到,即GC含量严重偏离正态分布时我们就认为原始数据存在宿主污染,这里介绍的去除宿主污染的工具是bowtie2,同样的也有很多其他软件可以做到去污染,如bwa,kneaddata等软件。

事实上,去除宿主污染的基本原理就是通过将原始的fastq序列跟人类的参考基因组进行比对,去除比对上的read或者高度匹配的read实现去除宿主污染。显然,这种去除污染的方式只有在你明确知道宿主是什么的时候是有效的,如肠道微生物组,口腔微生物组,他们的宿主是显而易见的,只要知道取样的实验体是什么就能知道宿主。

bowtie2的安装

# 通过下载conda通过conda进行安装
conda install bowtie2

若不想通过conda安装,也可以使用源码安装 (源码地址), 源码安装比较复杂且易出错,如果实在没有服务器管理员权限还是推荐用conda下载。

然后下载人类基因组索引

wget -c https://genome-idx.s3.amazonaws.com/bt/GRCh38_noalt_as.zip
unzip -d ./ GRCh38_noalt_as.zip

这里是bowtie2人类基因组索引的下载地址 。最后 GRCh38_noalt_as 文件夹内包含了人类基因的索引,一共是6个文件

当然你也可以通过基因组构造,通过基因组自己构造会更加灵活,也可以用于比对除了人类宿主以外的其他宿主污染,通过自己构造索引,首先你需要有一个被构造对象的基因组序列,这个基因组序列可以在NCBI中找到 网址在这里,输入你所需的物种,下载其基因序列即可。假设下载的基因组名为 [gene_species]

bowtie2-build [gene_species] [out/file/]

最后会将索引文件输出到 [out/file/] 文件夹下,也是六个文件,分别以 .1.bt2.2.bt2.3.bt2.4.bt2.rev.1.bt2.rev.2.bt2 结尾

bowtie2的使用

# 双端测序
bowtie2 -q -1 [*_1.fastq.gz] -2 [*_2.fastq.gz] -x [out/file/] --un-conc-gz [outfile]

# 单端测序
bowtie2 -q [*.fastq.gz] -x [out/file/] --un-conc-gz [outfile]

下面是参数详解

参数:

  • -x 参考基因组通过bowtie2-build构建的索引文件名称,即bt2_index_base
  • -1 双末端测序中的fastq文件之一
  • -2 双末端测序中的fastq文件之二,从多个文库来的fastq文件,可用逗号分割,写在-1 和-2 之后。
  • -U 非双末端测序的fastq文件,如有多个文件,需用逗号分割。
  • --interleaved 交叉读取的fastq文件。-1/-2,-U,--interleaved为逻辑或关系,即三选一。
  • -S 输出的SAM文件
  • -q 输入的reads文件为fastq格式 (默认)
  • -f 输入的reads文件为fasta格式
  • -5 切掉5‘端指定长度的碱基,然后比对 (默认为0)
  • -3 切掉3‘端指定长度的碱基,然后比对 (默认为0)
  • -p 计算线程数
  • --very-fast: 该参数可以以比对精度为代价提升比对速度

关键输出参数:

  • --un 将unpaired-end reads输出到文件
  • --un-gz 将unpaired-end reads输出到gz压缩文件
  • --al 将至少能比对上1次的unpaired-end reads输出到文件
  • --al-gz 将至少能比对上1次的unpaired-end reads输出gz压缩文件
  • --un-conc 将不能合理比对的paired-end reads输出到文件
  • --un-conc-gz 将不能合理比对的paired-end reads输出到gz压缩文件
  • --al-conc 将至少能合理比对上1次的paired reads输出到文件
  • --al-conc-gz 将至少能合理比对上1次的paired reads输出gz压缩文件

参考链接

[1] 宏基因组数据分析——用Bowtie2去宿主序列

[2] bowtie2手册

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容