蛋白质组学简介

Introduction

蛋白质组(proteome)是一个组织或细胞基因组中所表达的全部蛋白质的总和。蛋白质组学(proteomics)最初由澳大利亚学者Williams 和Wilkins 提出,目标在于阐述蛋白质组对应于基因组所表达的所有蛋白质构成的整体,即在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后的修饰、蛋白质与蛋白质相互作用等,由此获得蛋白质水平上的关于疾病机理、细胞代谢等过程的整体而全面的认识。


目前常规的基于MS的蛋白质组学中,蛋白质被酶解成肽段,然后通过LC-MS/MS进行分析获得图谱数据;然后搜库和分析转化,将峰信号转化为肽段/蛋白的表达矩阵数据。

常用技术

目前常见的技术可以分为:Bottom-up即质谱shotgun分析,是目前主流策略;Top-down即直接对完整的蛋白——包括翻译后修饰蛋白以及其它一些大片段蛋白测序;还有靶向蛋白质组学。

  1. 有参定量:

    1. iTRAQ (isobaric tags for relative and absolute quantitation)技术是一种多肽体外标记技术,采用4种或8种同位素标签,通过特异性标记多肽的氨基基团,而后进行串联质谱分析;可同时比较4种或8种不同样品中蛋白质的相对含量或绝对含量。

    2. SILAC:利用含轻、中或重型同位素标记的必需氨基酸(主要是Lys和Arg)对细胞进行标记培养5-6代。

  2. 相对定量(Label-free):

    1. 谱图计数(Spectral Counting):一个蛋白对应的二级谱图数目越多,丰度越高

    2. 基于离子流色谱峰(extracted ion current, XIC)的定量算 法(MaxQuant)

  3. 蛋白质芯片技术(protein chips)

  4. yeast two-hybrid system

  5. 噬菌体展示技术(phage display)

Exploring available infrastructure

R packages

在Bioconductor 3.12版本中,可以利用的R语言类公共资源 包括138 proteomics 包, 94个 mass spectrometry software packages 加上 23 mass spectrometry experiment packages.

其中RforProteomics对蛋白组数据分析相关的R包做了总结,涉及方面主要包括质谱蛋白质组数据下载、访问、操作和可视化;以及无标签和有标签的定量数据处理和定量数据分析方法。

nstall RforProteomics
BiocManager::install("RforProteomics", dependencies = TRUE)
​
# exploring
library("RforProteomics")
pp <- proteomicsPackages()
display(pp)</pre>

Analysis tools

  • Analysis of post translational modification with isobar

  • Analysis of label-free data from a Synapt G2 (including ion mobility) with synapter

  • Analysis of spatial proteomics data with pRoloc

  • Analysis of MALDI data with the MALDIquant package

  • Access to the Proteomics Standard Initiative Common QUery InterfaCe with the PSICQUIC package

  • agriGO: a GO analysis toolkit for the agricultural community.

  • FunRich:基因和蛋白质的功能富集以及相互作用网络分析

Workflow

ProteomeXchange >> raw MS data(mzR) >> 查库(PD,Maxquant, rTANDEM, MSGFplus) >> identification data >> MSnID(过滤) >> 统计分析(MSstats<DDA, DIA>, msmsTests, isobar<iTRAQ>)

  1. MaxQuant + Perseus

  2. Mass spectrometry and proteomics data analysis

  3. MSnbase:以iTRAQ数据作为例子进行了展示:clean,smooth,pickPeaks,removePeaks adn trimMz

Databases

Uniprot:Swissprot、TrEMBL、PRI-PSD

PlantPReS: a database for plant proteome response to stress

MS-GF+: http://proteomics.ucsd.edu/software-tools/ms-gf/

NR:一个非冗余数据库

MTBLS: 代谢组学

其他:Pfam, COG, NRDB, GenPept, NCBInr, cptac,

Mass spectrometry data

一般来说,质谱部分与色谱部分可以分开来看;目标物质通过色谱仪进入质谱后在电离源被电离成气相离子,然后进入质量分析器。不同质荷比离子被依次分开到达电子倍增管产生电信号,从而得到目标物质的三维信息,通过检测离子质荷比的大小和丰度,利用离子碎片信息可以更准确地对物质进行定性,从而对化合物进行定性和定量分析,并获得非常有用的元素组成和结构信息。

Data type

TYPE FORMAT PACKAGE
raw mzML, mzXML, netCDF, mzData mzR (read)
identification mzIdentML mzR (read) and mzID (read)
quantitation mzQuantML
peak lists mgf MSnbase (read/write)
other mzTab MSnbase (read)

Data accession

ProteomeXchange数据库基于质谱的蛋白质数据提交、存储和传播的中心点,可以协调包括 PRIDE数据库( EBI for MS/MS experiments), PASSEL 数据库(ISB for SRM data)和 MassIVE数据库的资源. 在R中一般可以利用已知的PX号通过 rpx包进行查询和下载。

质谱数据一般流程

  1. 样品上质谱,获得Raw data(质荷比+强度)

  2. 搜库,获得初始结果(丰度信息,ID信息)

  3. 质控

  4. 定性分析和定量分析

  5. 注释、挖掘、功能关联分析

蛋白质鉴定(搜库)

从质谱仪上拿到的数据是原始质谱数据,然后要将原始数据进行一个数据格式转换,数据转换后再进行搜库来鉴定蛋白质,这一步是要看找到了多少个蛋白质,随后对找到的蛋白进行蛋白定量。主要要素:

  1. 蛋白序列数据库:目的物种下载或转录组+基因组翻译

  2. 特异性酶解:指定使用的蛋白酶;否则,计算机会迭代所有可能,增加运算时间和错配率。

  3. 转录后修饰:一种叫固定修饰,即在某种氨基酸残基上一定出现的特定基团修饰,比如加入乙酰化试剂进行乙酰化修饰;另一种叫可变修饰(动态修饰),就是说某一种氨基酸残基可能会被某种基因修饰(被修饰的可能性比较大),例如甲硫氨酸的氧化等。

  4. 碎片类型:搜库软件通常会根据仪器类型来判断碎片离子的类型。如CID或HCD碎裂产生by离子;ETD碎裂则会产生cz离子;QTOF会产生ax离子。

  5. 已知污染物库: XXX.fasta(可以diy,然后合并fasta即可)

  6. labels

搜库软件

  • Mascot

  • SEQUEST

  • Maxquant:免费不开源,配套下游分析Perseus

  • X!Tandem:rTANDEM(R包接口)

  • MSGF+:MSGFplus(R包接口)

  • Skyline:For the data from targeted proteomics experiments

  • ProSight Lite:For top-down MS data

Maxquant

目前认可度相对较高,可用于酶解肽段和碰撞诱导离解(CID)、高能碰撞离解(HCD)和电子转移离解(ETD)所产生的串联光谱,可以在window和linux上运行。

  1. UltraQuant is an open framework for running MaxQuant on Linux computer clusters written in the Snakemake workflow management system.

Parameters

作者推荐用windows版本软件设置好mqpar.Xml,然后转到linux里运行。如果对设置文档比较熟系或者已经有了模板,只需修改常见变化代码段即可。

  1. <fastaFilePath>path_to.fasta</fastaFilePath>

  2. <filePaths>:LS/MS.raw(多个file > 下游参数需要跟着修改直到</parameterGroups>结束)

  3. <fixedCombinedFolder>:结果文件夹

  4. <restrictProteinQuantification> 为fixed modification

  5. <variableModifications>

  6. <enzymes>

  7. <labelMods>

# get mqpar.Xml from windows parameter setting
mono MaxQuant/bin/MaxQuantCmd.exe mqpar.Xml
​
# query the status 
ls $MQ_combined_folder/combined/proc | grep started
​
# the running times
cat $MQ_combined_folder/combined/proc/#runningTimes.txt

Computing cluster

https://docs.csc.fi/support/tutorials/MaxQuant-tutorial/

Partial Processing

# the individual steps
mono MaxQuantCmd.exe mqpar.xml -n
​
# to run specific step
mono MaxQuant/bin/MaxQuantCmd.exe mqpar.xml --partial-processing=20

主要结果

主要结果就是一个类似表达矩阵的东西,感觉可以按照转录组下游分析去做,而且MaxQuant的作者们还贴心的写了个下游分析的软件—Perseus。

  1. combined file >> proteinGroup.txt

  2. peptides.txt >> 肽组学

Perseus

  1. Preprocessing:去除污染蛋白(reverse database or contaminants) >> 接着做log2转化(optional) >> NA or blank(optional)

  2. Filtering: 基于表达量过滤空值或目标阈值

  3. Annotations

  4. Functional Analysis

数据呈现:Exploratory Analysis, Normalization(Z-score), Expression Analysis, Clustering and Profile Plots

可视化策略:火山图,韦恩图,热图,相关性热图,PCA,富集气泡图,准确性评估图

蛋白质功能注释

It is recommended to use proteins found in the ‘Majority protein IDs’ column for subsequent functional or enrichment analysis, as they are protected against accidental hits to a protein group.

通过搜库对蛋白质进行鉴定后,接着就是对这些搜到的蛋白进行功能注释,这有助于了解蛋白的功能,从而解析样本相关表型,常用于功能注释的数据库有:GO、COG、KEGG、NR、Pfam、Swiss-Prot。

参考文献

\1. Mergner, J. et al. Proteomic and transcriptomic profiling of aerial organ development in Arabidopsis. Sci Data 7, 334, doi:10.1038/s41597-020-00678-w (2020).

\2. Zhang, Y., Fonslow, B. R., Shan, B., Baek, M. C. & Yates, J. R., 3rd. Protein analysis by shotgun/bottom-up proteomics. Chem Rev 113, 2343-2394, doi:10.1021/cr3003533 (2013).

\3. Identification of protein clusters predictive of tumor response in rectal cancer patients receiving neoadjuvant chemoradiotherapy.

\4. Tyanova, S. & Cox, J. Perseus: A Bioinformatics Platform for Integrative Analysis of Proteomics Data in Cancer Research. Methods Mol Biol 1711, 133-148, doi:10.1007/978-1-4939-7493-1_7 (2018).

\5. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. doi:10.1038/nbt.1511.

\6. Hennrich, M. L. et al. Cell-specific proteome analyses of human bone marrow reveal molecular features of age-dependent functional decline. Nat Commun 9, 4004, doi:10.1038/s41467-018-06353-4 (2018).

\7. Sinitcyn, P. et al. MaxQuant goes Linux. Nature Methods 15, 401-401, doi:10.1038/s41592-018-0018-y (2018).

\8. Tyanova, S., Temu, T. & Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nat Protoc 11, 2301-2319, doi:10.1038/nprot.2016.136 (2016).

\9. http://www.coxdocs.org/doku.php?id=maxquant:viewer:start

\10. Mass spectrometry and proteomics data analysis

\11. RforProteomics

\12. UltraQuant

\13. https://docs.csc.fi/support/tutorials/MaxQuant-tutorial/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容