前言
宏组学(Meta-Omics)是涵盖宏基因组学、宏转录组学和宏蛋白质组学的一门学科。其中宏基因组研究可以获知环境中微生物的物种组成,目前已经开展的如火如荼;宏蛋白组描述环境中微生物的蛋白表达,由于其研究的复杂性,目前还处于起步阶段,但蛋白水平的研究可以进行微生物群落的一致性、活性和功能分析,能够提供宏基因组无法获取的信息。
宏蛋白质组(Metaproteomics):是指特定时刻下,环境微生物所表达的所有蛋白(Phillp L. Bond, 2004)。所研究种类非常多样化,比如活性淤泥中的微生物,海洋微生物,土壤中的微生物,发酵食品中的微生物,肠道微生物,粪便、黏膜腔等。
宏蛋白质组研究对象特性
1. 成分复杂,干扰物多
2. 微生物种类繁多
3. 受外界环境因素影响大(季节、温度、湿度等)
4. 空间位置复杂性
5. 存在其他生物:动植物
宏蛋白质组研究难点
宏蛋白质组研究存在的难点主要包括三个方面:样品制备、质谱检测、数据搜索
1. 样品制备
微生物组组成复杂、体系含有大量杂质,蛋白质提取需要针对性优化;
同一样品中的微生物组性质不同,需要不同的提取和裂解方案 (革兰氏阴性菌/阳性菌);
外源性动物植物、人源蛋白、储存过程中其他来源的微生物污染;
从复杂样品中提取蛋白的难度较高,极容易大量损失蛋白或提取失败;
蛋白丰度跨度大,需要一套复杂有效的分离分析实验策略。
2. 质谱检测
微生物组包含微生物种类繁多,蛋白丰度跨度大;
对质谱的扫描速度、分辨率、质量精度要求高;
一些常用的定量蛋白组技术并不兼容。
3. 数据搜索
缺乏微生物组蛋白数据库;
样品中的许多微生物至今未被鉴定,所以不管是依赖metaproteomics数据库还是公共数据库,都是不完整的;
构建的数据库过大,会增加错误率;
为了达到较高的蛋白鉴定率,同时会获取海量的谱图及使用巨大的数据库,导致数据分析时间漫长;
由于微生物种群间的序列相似度较高,目前没有可能将肽段准确的归属到完全特定的物种;
定量时,由于以上问题的存在,导致定量结果的整合更加困难。
宏蛋白质组数据分析
最重要也是最难的一步是数据库的构建:
宏蛋白质组分析的基础来自于宏基因组测序的精确结果,其数据库来源主要通过两种手段 :通过16s测序得到大体物种组成后在公共数据库中提取相应物种序列数据库进行整合;或者通过全基因组/转录组测序等手段深度测序样品中的DNA/转录组信息。
由于任一种建库方法都无法做到有效全覆盖,很多研究采用了多种来源数据库整合建库。
大体包括:
- 宏基因组测序;
- nr、ensembl或uniprot的微生物全库;
- 引用其他发表的文献中收集的数据库。
建库说明如下:
1.通过Metagenomics数据建库
目前测序的价格已经非常低廉,因此直接进行宏基因组测序的方法已经实用,在测序完成后将得到的数据库翻译成蛋白序列用于宏蛋白质组分析。但由于测序深度和读长的限制,还无法非常全面准确的覆盖完整的宏蛋白质组序列,需要其他方法作为补充。
2.公共数据库
目前NCBInr、Uniprot(Trembl、Uniref)均包含了数十万种细菌物种,数千万条序列,虽然和地球上已知的数千万种细菌物种相比还只是一小部分,但也足以作为测序数据库的有力补充。
3.第三方收集的数据库
有些研究会收集整理其获得宏蛋白质组数据库,我们可以参考其研究背景和对象,选择相近的数据库对自己研究的分析进行补充。类似的有 http://meta.genomics.cn
如下是两篇文献中类似的分析思路:
Critical decisions in metaproteomics: achieving high confidence protein annotations in a sea of unknowns.The ISME Journal2017
The impact of sequence database choice on metaproteomic results in gut microbiota studies.Microbiome 2016.