抗原设计秘籍(转载)
想要以高成功率获取特异性好、有效性高的抗体,第一步抗原设计至关重要。
目前,用于免疫生产抗体的抗原一般有多肽抗原和重组抗原。两种抗原各有优劣,多肽抗原理论上来说可以产生高特异性、针对特定抗原表位的抗体;缺点是免疫原性较低,需要和载体偶联以增强免疫原性,这增加了抗原制备成本,另外还会产生大量针对载体的非特异性抗体,增加了后续纯化和筛选成本。重组抗原免疫原性强,包含抗原表位多,用于制备抗体,相对成功率较高;但也有缺点,重组抗原一般采用大肠杆菌表达系统,原核表达系统的蛋白质折叠方式与真核生物的有所差异,另外有时并不能获取可溶性的抗原,进一步导致所获抗原与目的蛋白抗原的抗原表位并不完全一致,从而产生出一些非特异性的抗体,而这些非特异抗体在后期的纯化过程中是很难被排除掉的。
设计抗原时,多肽抗原一般选择12~30个左右的氨基酸,重组抗原一般为长度在100个氨基酸以上的部分或者全长蛋白。无论选择设计哪一种抗原,我们都要遵循以下几个基本原则:
1.确定所需生产抗体的用途
明确所需生产抗体的用途对抗原设计有很大的影响。例如:如果需要利用得到的抗体来研究目的蛋白的特定区域,如C端或N端,那么抗原序列的选择就应集中在这一区域;如果想要用抗体来研究一种特定状态下的蛋白,如磷酸化等,抗原设计的选择性更小了,只有选择该点位附近的合适氨基酸序列来设计多肽抗原。
2.抗原序列区域的选择原则
一般说来最理想的抗原表位识别区域应具备亲水、位于蛋白表面和结构上易变形性等特点。因为在大多数的天然(自然)环境中,亲水区域倾向于集中在蛋白表面,而疏水区域常常被包裹在蛋白内部。那么,我们在设计的抗原的时候,如果选择这些具备亲水、位于蛋白表面和结构上易变形性等特点的区域的话,则有利于抗原产生与目的蛋白相同的抗原表位,从而生产出高亲和力,高特异性的抗体。
3.连续的与不连续的识别区域
大多数抗体是针对连续识别区域的,抗体能与这类区域以很高的亲和力相结合表明这段序列不在蛋白内部。不连续的识别区域是代表有一定折叠的一段多肽序列,或是将两段分离开的多肽连在一起的抗体的识别区域。在某些情况下,针对这样不连续识别区域的抗体也能产生,只是用来免疫的抗原多肽必须具备与该不连续识别区域相似的二级结构,而序列的长度需要符合相关的要求。
4.避免识别区域隐藏在蛋白内部
为了避免识别区域隐藏在蛋白内部的风险,通常选择蛋白的N,C两端来产生的相应的抗体。因为在完整的蛋白中,N、C两端通常是暴露在蛋白表面的。然而,一定要注意膜蛋白的C端疏水性太强,不适合作为抗原。
了解以上基本原则后,设计抗原时,我们则可以通过以下几个步骤进行:
1.资料调研
1.1 查找蛋白质基本信息:包括蛋白名称、基因名称、分子量、氨基酸数、表达部位、GeneID等,常用如下两个数据库:
http://www.uniprot.org/ (Uniprot)
http://www.hprd.org/query (Human Protein Reference Database)
1.2 查找针对该蛋白质的抗体的信息
由于抗原设计本身具有很多的不确定性,为了降低风险,节省成本,所以需要参考别人做该抗体的抗原设计位点,尽可能多的调研相关信息,以免做无用功(例如,有些抗原只能用重组蛋白而不能用多肽,调研出这些信息就能降低很多风险)。常用网站如下:
2.二级结构预测 (以DNAstar为例)
在http://www.uniprot.org/ (Uniprot)中将蛋白的氨基酸序列复制到DNAstar中,再利用Protean得出该蛋白的抗原性(Antigenic Index)、亲水性(Hydrophilicity Plot)、柔韧性(Flexible Regions)、表面可及性(Surface probability)、转角(Turn, Coil)、α螺旋(Alpha-helix)、β折叠(Beta-sheet)等分析图。我们从中选择抗原性强、亲水性好、柔韧性好、表面可及性高、有转角的区域,同时避免有α螺旋、β折叠的区域。
3.在线预测
设计多肽抗原时可以在http://www.imtech.res.in/raghava/abcpred/ABC_submission.html提交蛋白的氨基酸序列,一般以20 aa为标准,得到不同肽段,其顺序按预测推荐优劣排列。在http://www.cbs.dtu.dk/services/BepiPred/ 再次提交蛋白氨基酸序列,得到整个序列中每一个氨基酸的抗原性,得分高的抗原性好。
4.同源性比较(Blast)
对于多肽抗原,一般还需要比较同源性。可以将选择的序列在http://www.uniprot.org/上Blast,看其同源性,同一物种中的同源性高的序列则不能选择,不同物种之间的同源性高的则可以作为抗原。
经过以上步骤后,我们就可以综合选定序列所需的抗原种类及序列了。
附录. 一些常用的数据库和预测工具
分析氨基酸序列中是否存在信号肽:
http://www.cbs.dtu.dk/services/SignalP/
分析氨基酸序列中的跨膜结构:
http://www.cbs.dtu.dk/services/TMHMM/
基于序列的线性表位预测工具:
http://www.cbs.dtu.dk/services/BepiPred
基于结构的连续性和非连续性表位预测工具:
http://bioinfo.ernet.in/cep.htm
基于序列/结构的非连续性表位预测工具:
http://www.cbs.dtu.dk/services/DiscoTope
抗原-抗体相互作用残基数据库:
http://www.rostlab.org/services/ep
免疫细胞通常难以识别整个抗原分子,而仅识别抗原大分子上的一个特定的部分,称为表位(epitope)或抗原决定簇(antigenicdeterminant)。因而表位代表了抗原分子上的一个免疫活性区,负责与免疫细胞表面的抗原受体或游离的抗体分子相结合。严格说来,抗体的特异性是针对表位而不是针对完整的抗原分子。
那么,如何进行正确进行抗原表位预测及抗原多肽设计呢?
利用在线软件BepiPred 1.0 Server(http://www.cbs.dtu.dk/services/BepiPred/)从蛋白序列直接预测抗原表位
还有其他在线预测网站
http://www.epitope-informatics.com/Links.htm
http://bio.dfci.harvard.edu/Tools/index.html 进Antigenic Peptide Prediction 用tools
http://bio.dfci.harvard.edu/Tools/antigenic.pl 把氨基酸序列粘贴进去,就可以直接得出预测结果
抗原多肽选择的基本原则
1、尽可能是在蛋白表面
2、保证该段序列不形成α-helix
3、N,C端的肽段比中间的肽段更好
4、避免蛋白内部重复或接近重复段的序列
5、避免同源性太强的肽段
6、交联可以交联在N,C两端,选择依据就是交联在对产生抗体不太重要的一端
7、序列中不能有太多的Pro,但有一两个Pro有好处,可以使肽链结构相对稳定一些,对产生特异性抗体有益。
抗原多肽设计的基本原则
为了使生产抗体获得最佳效果,仔细地设计抗原多肽是很有必要的,设计应满足一个基本条件:在免疫过程中,该抗原既不会产生过强的免疫反应,同时又能产生出对感兴趣的蛋白有结合能力的抗体。尽管抗原设计是一个很复杂的课题,有诸多需要注意的细节,已超过了我们所能提供的范围,根据我们所积累的经验,有几点关键的基本设计原则可以提供给大家参考:
1、确定抗体的用途(应用)新开展一个研究项目,弄清楚所感兴趣的蛋白的一些基本特性是很有必要的,特别是如果知道蛋白的结构会对选择抗体易于接触和识别的识别区域有很大的帮助。然而,在没有这样精确的结构信息(多数是这种情况)的情况下,了解研究的用途(应用)会影响多肽设计的策略。例如:如果研究重点是集中在蛋白的不同区域,如C端或N端,或在一种特定状态下的蛋白,如磷酸化等,那么按照所需序列设计的多肽和产生的相应的抗体在应用上应该没有太大的困难,然而,蛋白的构象将影响抗体与其识别区域之间的相互作用。这种情况下可能存在的问题是如果在折叠的蛋白中,该识别区域被藏在蛋白的内部,抗体将无法接触到该区域。(无法产生相互作用)。
2、识别区域的选择原则一般说来最理想的抗原性识别区域应具备亲水、位于蛋白表面和结构上易变形性等特点。因为在大多数的天然(自然)环境中,亲水区域倾向于集中在蛋白表面,而疏水区域常常被包裹在蛋白内部,同样道理,抗体只能与在蛋白表面发现的识别区域相互作用,而当这些识别区域有足够的结构易变形性而转移到抗体可接触的位置时,将会与抗体间有很高的亲和性。
3、连续的与不连续的识别区域连续的区域是指由连续的氨基酸序列(残基)构成的识别区域。大多数抗体是针对连续识别区域的,抗体能与这类区域以很高的亲和力相结合表明这段序列不在蛋白内部。不连续的识别区域是代表有一定折叠的一段多肽序列,或是将两段分离开的多肽连在一起的抗体的识别区域。在某些情况下,针对这样不连续识别区域的抗体也能产生,只是用来免疫的抗原多肽必须具备与该不连续识别区域相似的二级结构,而序列的长度需要符合相关的要求。
4、基本建议为了避免识别区域隐藏在蛋白内部的风险,我们通常建议选择蛋白的N,C两端来产生的相应的抗体。因为在完整的蛋白中,N,C两端通常是暴露在蛋白表面的。然而,一定要注意膜蛋白的C端疏水性太强,不适合作为抗原。
5、序列的长度通常我们建议抗原多肽的序列长度在8-20个氨基酸残基之间,如果太短,就有多肽太特殊、所产生的抗体与天然蛋白之间的亲和力(结合能力)不够强的风险,同样,如果序列长度超过20,将有可能引入二级结构,所产生的抗体失去特异性的可能,而且肽链越长,通常合成难度增大,不易获得高纯度的产品。
6、载体蛋白交联的选择
基本原则:将载体蛋白加在远离抗体识别区域的一端,在序列中没有Cys的情况下在N或C端加上Cys为交联的首选方法。
7、常用分析软件 MacVecfor TM ;DNA star TM;PC-Gene TM
一天之计在于晨,一年之计在于春。那么制备一个抗体,抗原的设计和表达系统的选择则至关重要,可以毫不夸张的说,设计出一个好的抗原对于制备一个高质量抗体来说就是成功了一大半。
设计抗原时,对抗原的结构分析、B细胞表位预测尤其重要。
Uniprot数据库和CBS服务器(http://www.cbs.dtu.dk/)预测信号肽、跨膜、表位等结构;EX-PASY服务器(http://www.expasy.org/tools)上的GOR4、HNN、SOPMA、nnPredict等方法。亲水性、柔韧性、表面可能性、抗原表位预测、α螺旋和β折叠可以应用DNAstar软件预测,同时可以结合Uniprot数据中的蛋白结构分析。MOE软件也可以预测蛋白的结构,同时MOE软件可以从多个角度分析蛋白的结构特性。
B细胞表位预测的方法及应用线性表位的预测方法: B细胞表位的预测方法主要集中于线性表位,大量的预测B细胞表位的算法都是基于蛋白质序列。这些算法包括:蛋白质的亲水性算法、可及性算法、蛋白质可塑性算法、蛋白质二级结构预测算法、蛋白质抗原性算法。这些方法的代表软件有PEOPLE、PREDITOP、BEPITOPE、Bcepred、ABCpred、BepiPred、APP等。
构象表位的预测方法:绝大多数B细胞表位预测方法都是基于蛋白质的一级或二级结构的,但这些方法只能用来预测由连续的氨基酸残基构成的线性表位,而基于蛋白质的三级结构来预测构象表位的方法比较少,这是因为各种抗原的构象表位可获得的数据要远远少于线性表位。
基于蛋白质三级结构来预测构象表位的方法CEP:这是第一个以抗原蛋白的三级结构PDB文件作为输入条件,以构象性表位预测为主要目的的网上免费服务软件。由于抗原抗体之间的相互作用属于蛋白质与蛋白质之间相互作用中的一种,因此,可以参这些方法来预测B细胞表位。
分子对接:主要用来研究分子间的相互作用与识别,进而预测复合物结构。常用的分子对接软件有ZDOCK、DOT、DOCK、ClusPro等。
抗原的表达系统的选择
通过对抗原的结构和B细胞表位分析预测后,然后再结合抗体的使用要求,进行选择适当的区间以及表达系统进行抗原表达纯化。
针对于简单的应用WB\IHC\IF\IP这类的检测应用型的抗体,我们推荐的是蛋白的成熟的非跨膜区间,表达系统可以选择大肠、酵母这种成功率高、经济成本相对于较低的蛋白表达系统,抗体的类型可以选择多抗和单抗。同时,这类型的抗体还可以选择直接合成多肽偶联载体后作为抗原,进行免疫动物。
如果是正对与IF、FC、细胞、抗体结合等实验的话,我们推荐的蛋白是全长的或者成熟的跨膜和非跨膜区间,表达系统主要选择无细胞、哺乳、酵母这类具有蛋白活性或者能表达出全长的表达系统进行表达蛋白,对应的抗体类型主要选择单抗和基因工程抗体。
~各种分析网站~
https://psort.hgc.jp/form2.html 亚细胞定位分析
http://www.cbs.dtu.dk/services/SignalP-4.0/ 信号肽分析
http://www.enzim.hu/hmmtop/html/adv_submit.html 跨膜分析
https://ihg.gsf.de/ihg/mitoprot.html 线粒体转运肽分析
http://nls-mapper.iab.keio.ac.jp/cgi-bin/NLS_Mapper_form.cgi 核定位分析
http://www.proteinatlas.org/ 表达预测(人种属)
https://bgee.org/?page=gene 表达丰度预测
http://old.protein.bio.unipd.it/espritz/ 结构无序性分析
https://swissmodel.expasy.org/ 三级结构预测
http://www.cbs.dtu.dk/services/NetNGlyc/ 糖基化修饰预测分析