宏RNA测序去除宿主核糖体rRNA(一)-分析端去除

~~~~前面一篇文章讲了宏RNA测序时去除RNA的原因以及实验端去除让RNA的主流方法。这一章主要讲讲分析段如何去除rRNA。

~~~~实验时选择去除rRNA处理后,会大大降低rRNA的比例。但针对于痕量核酸样本(拭子类,脑脊液类),尤其是珍贵样本,不推荐实验时加去除rRNA处理。处理后回收核酸量太少,可能造成后续建库失败的风险。

~~~~本文主要讲拿到数据后如何将rRNA这部分数据剔除出来,后续的数据继续分析。那如何去除测序数据中的rRNA呢?

一、数据与软件

  1. 宏RNA测序的下机数据
  2. 参考数据集(rRNA)
  3. seqkit 软件
  4. Bowtie2 软件
  5. Samtools 软件

二、 具体步骤:

1. 宏RNA测序的下机数据

~~~~目前宏RNA的测序主流平台还是二代测序平台,包括Illumina、BGIseq测序平台,还有少量来自于Thermo fisher 测序平台Ion S5(部分省市疾控会使用此平台针对新冠进行靶向测序)。测序策略一般为PE100或PE150。

2. 参考数据集(rRNA)

以人类rRNA为例。
登录NCBI网站,在搜索框输入“Homo sapiens”,选择Genomes 会跳转到Genomes-NCBI Datasets,截止写文前(2022-2-15)人类基因组有898条记录(里面有GCA 和GCF的重复)。但其实选一个参考序列即可,无需所有的基因组都下载。每个基因组3GB,全部下载下来比较浪费空间。

图1| homo sapiens.png

图2|人类基因组序列

直接在NCBI主页上选择genomes库,输入Homo sapiens。出来的为人类基因组参考序列,一般有GCF开头的序列就选GCF的,没有的就选GCA开头的。目前人类基因组参考序列为:
Assembly:GCF_000001405.39_GRCh38.p13/
BioProjects:PRJNA168, PRJNA31257
Statistics: total length (Mb): 3272.09 protein count: 122522 GC%: 41.4778

image.png

点击RefSeq下载序列,


homo下载.png

image.png

另一种方式是去NCBI FTP Site(https://ftp.ncbi.nlm.nih.gov/)库里去搜索。
上述方法已经获取人类基因组参考序列的ID号为:GCF_000001405.39,将ID按照三个字符分隔,分别为/GCF/000/001/405,整个链接为https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405

image.png

~~~~GRCh37和GRCh38是常用的两个人类参考序列版本,也即对应着UCSC的hg19和hg38,以GRCh38为例,选择了最新的p13版本,“GCF_000001405.39_GRCh38.p13”。每个版本有多次

GCF_000001405.39_GRCh38.p13网页下包含基因组序列、基因组注释、蛋白序列、编码区cds序列、RNA序列等。用的比较多的是基因组和蛋白序列以及注释信息(1基因组序列和注释信息)。2.RNA序列有两个文件,一个GCF_000001405.39_GRCh38.p13_rna.fna.gz 113MB ,一个GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna.gz 80MB文件,

先将两个RNA序列下载下来。可浏览器直接点击下载(NCBI速度比较大,且中间可能会中断,多次尝试下载,要有耐心,哈哈哈哈),也可在Linux系统下使用wget下载。

wget -c https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna.gz
wget -c https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_rna.fna.gz

下载好序列后,解压缩,提取其中的rRNA 序列,用作后续去除rRNA的参考数据集。
如果使用 GCF_000001405.39_GRCh38.p13_rna.fna文件提取rRNA,使用以下程序提取

grep 'ribosomal RNA' GCF_000001405.39_GRCh38.p13_rna.fna  |grep -v 'mRNA' |grep -v 'non-coding RNA'|grep -v 'misc_RNA' >GCF_000001405.39_GRCh38.p13_rna.ribosomal_RNA.acc

image.png

得到5.8S、18S、28S、45S分别有5个copy,5S有17个copy。
如果使用GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna,序列ID中的gbkey这个关键字提示哪个是rRNA,故使用这个关键字提取

grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna >GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.acc
#提取并按照product列排序
grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna |awk -F '[' '{print $4}' |sort

#输出
$ grep 'gbkey=rRNA' GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna |awk -F '[' '{print $4}' |sort
product=l-rRNA]
product=RNA, 18S pre-ribosomal N4]
product=RNA, 18S ribosomal RNA N1]
product=RNA, 18S ribosomal RNA N1]
product=RNA, 18S ribosomal RNA N2]
product=RNA, 18S ribosomal RNA N3]
product=RNA, 18S ribosomal RNA N3]
product=RNA, 18S ribosomal RNA N5]
product=RNA, 28S ribosomal RNA N1]
product=RNA, 28S ribosomal RNA N1]
product=RNA, 28S ribosomal RNA N2]
product=RNA, 28S ribosomal RNA N3]
product=RNA, 28S ribosomal RNA N3]
product=RNA, 28S ribosomal RNA N4]
product=RNA, 28S ribosomal RNA N5]
product=RNA, 45S pre-ribosomal N1]
product=RNA, 45S pre-ribosomal N1]
product=RNA, 45S pre-ribosomal N2]
product=RNA, 45S pre-ribosomal N3]
product=RNA, 45S pre-ribosomal N3]
product=RNA, 45S pre-ribosomal N4]
product=RNA, 45S pre-ribosomal N5]
product=RNA, 5.8S ribosomal RNA N1]
product=RNA, 5.8S ribosomal RNA N1]
product=RNA, 5.8S ribosomal RNA N2]
product=RNA, 5.8S ribosomal RNA N3]
product=RNA, 5.8S ribosomal RNA N3]
product=RNA, 5.8S ribosomal RNA N4]
product=RNA, 5.8S ribosomal RNA N5]
product=RNA, 5S ribosomal 1]
product=RNA, 5S ribosomal 1]
product=RNA, 5S ribosomal 10]
product=RNA, 5S ribosomal 10]
product=RNA, 5S ribosomal 11]
product=RNA, 5S ribosomal 11]
product=RNA, 5S ribosomal 12]
product=RNA, 5S ribosomal 12]
product=RNA, 5S ribosomal 13]
product=RNA, 5S ribosomal 13]
product=RNA, 5S ribosomal 14]
product=RNA, 5S ribosomal 14]
product=RNA, 5S ribosomal 15]
product=RNA, 5S ribosomal 15]
product=RNA, 5S ribosomal 16]
product=RNA, 5S ribosomal 16]
product=RNA, 5S ribosomal 17]
product=RNA, 5S ribosomal 17]
product=RNA, 5S ribosomal 2]
product=RNA, 5S ribosomal 2]
product=RNA, 5S ribosomal 3]
product=RNA, 5S ribosomal 3]
product=RNA, 5S ribosomal 4]
product=RNA, 5S ribosomal 4]
product=RNA, 5S ribosomal 5]
product=RNA, 5S ribosomal 5]
product=RNA, 5S ribosomal 6]
product=RNA, 5S ribosomal 6]
product=RNA, 5S ribosomal 7]
product=RNA, 5S ribosomal 7]
product=RNA, 5S ribosomal 8]
product=RNA, 5S ribosomal 8]
product=RNA, 5S ribosomal 9]
product=RNA, 5S ribosomal 9]
product=s-rRNA]

~~~~除了有多copy的rRNA之外(5.8S、18S、28S、45S分别有7个copy,5S有34个copy),还有两个线类体rRNA(文后会补充线类体相关背景知识),为s-rRNA和l-rRNA,分别对应线类体的12S和18S。

image.png

至此,得到人类的rRNA有5.8S、18S、28S、45S、5S和线类体的s-rRNA和l-rRNA。至于45S rRNA前体,长度约为14000nt,后续会在细胞核的核仁中剪切生成80S核糖体的28S rRNA、5.8S rRNA和18S rRNA。

3. 提取序列

~~~~上述步骤已经得到rRNA 序列的ID,根据ID 信息从fasta格式的GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna文件中提取相应的序列。可以使用脚本语言,比如awk、awk、Perl等,也可以使用seqkit软件提取。
~~~~seqkit软件是一款序列梳理神器-小巧(6M大小),兼具统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能...。此处仅简要介绍怎么抽提序列。
seqkit网址:https://bioinf.shenwei.me/seqkit/
latest verison: releasev2.1.0:https://github.com/shenwei356/seqkit/releases/download/v2.1.0/seqkit_linux_amd64.tar.gz

tar -xvf seqkit_linux_amd64.tar.gz
解压缩后即为可执行文件。若为了使用方便可将软件路径加到环境变量里面。

第二步提取到的序列id进行格式化,只取id空格前的字符串,输出到文本。

awk '{print $1}' GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.acc |sed 's/>//' >GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA.id

提取序列
seqkit grep -f GCF_000001405.39_GRCh38.p13_rna_from_genomic.ribosomal_RNA1.id GCF_000001405.39_GRCh38.p13_rna_from_genomic.fna > GCF_000001405.39_GRCh38.p13_rna_from_genomic_rRNA.fna

提取出序列后可选择去冗余,经alignment 多个copy的序列后,发现序列之间相似度很大,除部分Gap存在外,仅有少量SNP存在,如下表所示:

rRNA #of SNP #of copys
5.8S 0 SNP 7
5S 0-1 SNP 34
18S 0-1 SNP 7
28S 0-12 SNP 7
45S 0-44 SNP 7

~~~~ 去冗余主要是为了减小参考数据集,加快筛查的速度。每条rRNA的copy之间差异度很小,故每个5.8S、5S、18S、28S、45S rRNA 随机选一条;加上2条线类体rRNA,作为去除人类rRNA的参考数据集;笔者也尝试了GRCh37版本中提取rRNA,步骤与此类似,copy数有差异(GRCh37 copy数少)。

4. bowtie2、samtools下载和参考数据集构建index

bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) 是将测序的reads与长参考序列比对的工具。bowtie2使用FM索引(基于Burrows-Wheeler transform 或BWT)对基因组进行索引,以此来保持其占用较小内存。bowtie2支持间隔、局部和双端对其模式。可以同时使用多个处理器来极大的提升比对速度。

Samtools(http://www.htslib.org/),是一个用于操作sam和bam文件的工具合集。能够实现二进制查看、格式转换、排序及合并等功能,结合sam格式中的flag、tag等信息,还可以完成对比对结果的统计汇总。

(1)**下载bowtie2和samtools **,可以使用conda安装,就是可能不是最新版本。如果使用最新版本,可使用以下命令下载:

#下载bowtie2
wget -c --no-check-certificate  https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.4.5/bowtie2-2.4.5-linux-x86_64.zip
#解压后即可用
unzip bowtie2-2.4.5-linux-x86_64.zip 
#下载samtools
wget -c  --no-check-certificate https://jaist.dl.sourceforge.net/project/samtools/samtools/1.15/samtools-1.15.tar.bz2
tar -jxvf samtools-1.15.tar.bz2
#下载的为源码,需编译
cd samtools-1.15/
./configure
make
./samtools --help

构建参考数据集的索引index

$ bowtie2-build Del_human_rRNA_refseq.fasta human_rRNA
建好的人rRNA索引

(2)使用bowtie2去除rRNA

bowtie2 --very-sensitive-local --no-unal -I 1 -X 1000 -p 6 -x rRNA -1 R1.fq.gz -2 R2.fq.gz --un-conc-gz sample_rRNAremoved.fq.gz 2>sample_Map2rRNAStat.xls | samtools view -S -b -o sample_Map2rRNA.bam -

实例:
bowtie2 --very-sensitive-local --no-unal -I 1 -X 1000 -p 6 -x ../DB/human_rRNA -1 6-1-1_L01_72_1.fq.gz -2 6-1-1_L01_72_2.fq.gz --un-conc-gz 6-1-1_L01.fq.gz 2> 6-1-1_L01_Map2rRNAStat.xls |samtools view -S -b -o 6-1-1_L01_Map2rRNA.bam -

Bowtie2参数设置:
--very-sensitive-local --no-unal -I 1 -X 1000:这几个参数不描述,可以看看bowtie2的帮助页;
-p:线程数。
-x:参考序列的前缀(就是bowtie2-build rRNA.fa rRNA中的第二个参数)。
-1,-2:分别接测序数据的R1和R2,没有R2的话,只需要-1。
--un-conc-gz:比对不上的序列,以此前缀输出,压缩格式。
--un-conc <path> :不能map的reads,fastq格式,非压缩格式,供后续分析直接使用。
sample_Map2rRNAStat.xls是bowtie2最后给出的比对结果,包括比对率、唯一比对、多重比对率等。
后面可以直接通过管道命令“|”,接samtools view -S -b -o sample_Map2rRNA.bam - 直接输出比对到rRNA的bam文件,用作其他分析。也可以不用samtools,直接 通过 ">"输出成 sam 文件。

samtools参数介绍:
-o 输出文件的名称
-@ 指使用的线程数
-b 该参数设置输出BAM格式,默认下输出是SAM格式文件
-S 默认下输入是BAM文件,若是输入为SAM文件,则最好加该参数,否则有时会报错

bowtie2跑完之后,将得到几个文件:


image.png

*_1.fq.gz 和 *_2.fq.gz 是原始文件
*rRNAremoved的R1和R2的fq,这个就是我们最后想拿到的,去除了rRNA的序列,用于后续分析;
*Map2rRNA.bam,比对上rRNA的bam;
*Map2rRNAStat.xls是比对到rRNA的情况。

image.png

最后,得到 *rRNAremoved.fq.1.gz 和 *rRNAremoved.fq.2.gz,就是去除rRNA序列之后的病毒宏基因组数据。

~~~~该样本为人肛拭子样本。比对人的rRNA的占比为69.41%。出乎我的医意料。但是和我的前一篇文章中的《宏RNA测序去除宿主核糖体rRNA(一)-实验端去除》(https://www.jianshu.com/p/3bfb4fa934d1)中描述的 在这转录组RNA中,核糖体RNA(rRNA)越占RNA总量的80%,是含量最多的一类RNA的观点相吻合。此次选用的原始文件左右双端均为1.2GB,耗时17分钟。故在时间要求比较高的样本中去宿主基因组的步骤可以改为先去除rRNA,因为rRNA的库很小,能快速扫完,把数据量降下来后再进行后续分析,有助于整个分析环节所需时长的缩短。


补充知识:**线类体**
~~~~线类体是细胞核外唯一含有DNA的细胞器,线类体DNA(mitochondrial DNA,mtDNA)。mtDNA全长16569bp,双链,闭环分子,外环为重链(H链),内环为轻链(L链)。其基因结构在哺乳动物中保守,共编码37个基因:13种编码蛋白的基因,22种tRNA,2种rRNA,无内含子。唯一的非编码区:1000bpde D-loop环,包含重链复制起始点、轻重链转录启动子、4个高度保守序列。
~~~~异质性:每个细胞中含有数百个线类体,每个线类体含有2-10个拷贝的mtDNA,因此每个细胞中含有数千个mtDNA。
~~~~线类体广泛存在于除红细胞以外的组织细胞中。脑和骨骼肌作为高能量代谢器官,其细胞中含有大量线类体,因而mtDNA 缺陷产生极其广泛的病原谱,最主要的表现为线类体性脑疾病。

image.png

~~~~mtDNA的特点:(1)复制具有半自主性,受核DNA的影响;(2)线类体基因组所用的遗传密码和通用密码不同;(3)mtDNA为母系遗传;(4)mtDNA在有丝分裂和减数分裂期间都要经过复制分离;(5)mtDNA的杂质性与阈值效应。线类体可随细胞分裂随机分配到子细胞中,造成不同的组织或细胞中携带突变型mtDNA的比例不同,造成了线类体基因病存在组织特异性表型和表型多样性。mtDNA突变存在阈值效应,突变的mtDNA随着年龄的增加在细胞中逐渐积累,病情也常表现为与年龄相关的渐进性加重。

参考文献:

  1. https://zhuanlan.zhihu.com/p/329967121
  2. 焦老师讲遗传系列之9:线粒体遗传
  3. 人类线粒体基因组简介
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容