微生物组16S rRNA数据分析小结:raw data sequence及其注意事项

笔记内容:
拿到原始数据后,在做上游分析之前,需要了解和注意的:

  • 16s rRNA是什么,测它有什么用
  • 序列文件(raw sequence data)是怎么来的?
  • raw sequence data的简要介绍
  • checklist: 拿到raw sequence data后,需要check的事情

16s rRNA是什么,测它有什么用

细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基,16s rDNA是编码该亚基的基因,存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来,而不是研究RNA。

将翻译16S rRNA的DNA扩增出来测序,目的为识别样本中有哪些原核生物物种(细菌/古菌),研究物种多样性。包括他们的相对丰度及物种构成。

为什么可以根据16S rRNA来识别其物种?16S rRNA测序是测其上若干个可变区。这些可变区是species-specific的,可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大,不能用于特异的识别其属于哪一个物种。

灰色部分为可变区

raw sequence data是怎么来的?

Illumina二代测序的具体过程可以通过官方视频了解,十分详细。大概是:

  • 采集样品(如粪便,皮肤等), 提取微生物DNA
  • 扩增DNA:通过桥式扩增,得到大量扩增的DNA片段
  • 测序:将带荧光标记的叠氮基团结合到待测链上,得到各碱基对应的特定荧光,以此得到测序结果。
  • output: 测序得到n个reads,被output成fastq文件,根据primer和barcode来整理这些reads,得到各个样本的R1和R2,再进行后续分析。

参考wiki
参考illumina官网
官网视频是youtube的,这里是一个B站的
另一个B站视频

raw sequence data的简要介绍

raw sequence data的fastq格式文件,有固定的格式。参考https://en.wikipedia.org/wiki/FASTQ_format

列举工作中常见的两种双端测序得到的raw seqence data:

  1. 未分样本,按批次分文件的下机序列数据:
    批次a_R1.fastq.gz, 批次a_R2.fastq.gz
    批次b_R1.fastq.gz, 批次b_R2.fastq.gz ...
    这样的文件会附一个mapping file, 提供了各个样本的barcode,ForwardPrimer及ReversePrimer,如下所示。有的只有一边barcode,有的有双barcode,下表为双barcode的例子:
sampleID ForwardBarcode ForwardPrimer ReverseBarcode ReversePrimer
sample1 ATGCATCG AGAGTTTGATCMTGGCTCAG TAGGACCG GCTGCCTCCCGTAGGAGT
sample2 ATGCATCG AGAGTTTGATCMTGGCTCAG AAGCACTC GCTGCCTCCCGTAGGAGT
... ... ... ... ...
示意图
fastq格式:比方说这是a批次的R1和R2
  1. 按样本分好各文件的序列数据:
    sample1_R1.fastq.gz, sample1_R2.fastq.gz
    sample2_R1.fastq.gz, sample2_R2.fastq.gz ...
    这种data不是很raw,是将1中的下机数据按照mapping file中样本的信息分好,则得到这样的文件。由于分好样本了,基本不需要mapping file。但如果没有去除adapter和primer,你需要找测序的人要adapter和primer,并且grep一下看看到底有没有。
    其fastq格式和上面的差不多。在不同的流程和软件处理的过程中,其header会根据分析需求做出改变。

check list:拿到raw sequence data后,开始上游分析

  1. 手头的数据测的是16s的哪个区域?v1-v2?v3-v4?v4?,check对应的primer. 将For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer,R2的file中是否存在ForwardPrimer
    如果存在这种“互换”的情况,需要把它们换回来。并且记得将header中R1,R2的信息更新。
image.png
  1. raw data分好样本了吗?没有的话需要根据barcode和primer来分样本,跟测序合作者要mapping file
    mapping file获取之后,随机抽取一些barcode和primer检查,防止出现1中的问题。以及要检查primer前的的序列是否真的是barcode。barcode前面是否还有其它前缀序列。
  1. 分好样本的为XXR1.fastq, XXR2.fastq这样的格式,不论是你自己分的还是raw data给到你就是这个,都要check primer和barcode是否还在上面,决定后面是否需要cutadapt。自己cutadapt之后也要check一下,以防cut错了。
  1. 在R1和R2中随机抽取几条blast看一下方向,是否与R1(+), R2(-)一致。也是防止R1和R2发生“互调”的问题。
  1. 遇到坑了再补充
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,817评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,329评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,354评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,498评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,600评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,829评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,979评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,722评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,189评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,519评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,654评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,940评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,762评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,993评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,382评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,543评论 2 349

推荐阅读更多精彩内容