摘要
在单核苷酸多态性(SNP)数据和大规模随机突变项目中发现了许多错义替换。每一种氨基酸的替换都可能影响蛋白质的功能。我们已经构建了一个工具,利用序列同源性来预测替换是否影响蛋白质功能。SIFT将不耐受的替换和耐受的替换进行分类,将替换分为可耐受的和有害的。在三个测试案例中,SIFT预测有害的替换比通过替换评分矩阵预测有害的替换给出了受影响的表型。在突变研究前使用SIFT可以减少所需的功能检测数量,并产生更高比例的受影响表型。SIFT可用于识别引起误义替换的SNPs中可能的疾病候选。
介绍
识别影响蛋白质功能的替换是研究蛋白质及其在疾病中的意义的主要兴趣。致病突变往往发生在结构和功能上重要的位点,而大量多态性位点位于这些区域。据估计,每个人都是24000 - 40000个氨基酸改变的杂合子。预测这些位点的替换是有害的还是中性的,可能有助于识别与疾病相关的等位基因。最近的一项单核苷酸多态性(SNP)研究使用了氨基酸替换评分矩阵BLOSUM62,将编码区域中由SNP引起的氨基酸替换分为保守或非保守(Cargill et al. 1999)。然而,使用替换评分矩阵来预测氨基酸替换是否会影响蛋白质的功能或结构可能是不合适的,因为它概括了并没有包含特定于感兴趣蛋白质的信息。
注:BLOSUM62是应用得非常广的氨基酸替换矩阵,BLAST中蛋白质的比对也有用到。
替换评分矩阵,如BLOSUM62,还没有对其预测蛋白质改变取代的能力的实验数据进行测试。与大多数矩阵一样,BLOSUM62矩阵用于数据库搜索和成对对齐,这与预测有害的替换是不同的任务。替换矩阵得分通常由目标频率的对数比值比计算而得,目标频率是通过计算成对排列的氨基酸和氨基酸的背景频率得到的。相对于含量较低的氨基酸,含量较高的氨基酸的替换品得分较低,因为含量较低的氨基酸的本底频率较低。然而,当考虑一个氨基酸的变化是否被容忍时,氨基酸的总体丰度是无关的。平均而言,19种可能的氨基酸替换品中有14种在BLOSUM62矩阵中得分为负,被Cargill等人(1999)认为是非保守的。如果非保守的替换被预测是有害的,那么许多替换将被预测影响表型。然而,正如之前的诱变研究。因此,由于这种过度预测,用替换评分矩阵对所有被认为是非保守性的变化进行实验测试将是费时和浪费的,特别是对于非同义SNPs的检验这样的大规模研究或全基因组随机突变项目。
给定一个蛋白质查询,来自蛋白质家族的比对序列给出了位置特异性信息,这是替换评分矩阵所缺乏的。在蛋白质家族中完全保守的残基对蛋白质的功能具有重要意义,即使这些残基中的一个被保守的取代,也可能影响蛋白质的功能。替换矩阵可能低估了这些关键位置有害替换的严重性。在某些部位,如果这些部位与蛋白质的功能或结构无关,则蛋白质中的任何氨基酸变化都是可以容忍的。因为这些被认为是中性的取代,人们可能会认为蛋白质alignment中这些位置上的氨基酸是不同的。因此,基于蛋白质家族成员序列比对的氨基酸替换预测表型的准确性应优于使用广义替换评分矩阵。
SIFT是一个基于序列同源性的工具,可以对不耐受和耐受的氨基酸替换进行分类,并预测蛋白质中特定位置的氨基酸替换是否会产生表型效应。对于三个数据集,SIFT比替换评分矩阵更准确地预测由替换产生的表型。在一些例外情况下,SIFT预测替换是中性的,但在实验中确实有有害的影响; 这些可以由蛋白质家族成员之间不保守的特定查询相互作用来解释。
结果
原理阐述
SIFT接收一个查询序列时,并使用多个比对信息来预测查询序列每个位置的可容忍的和有害的替换。SIFT是一个多步骤的程序,给定一个蛋白质序列,(1)搜索相似的序列,(2)选择紧密相关且具有相似功能的序列,(3)获得这些选择的序列的多重比对,(4)计算比对中每个位置所有可能替换的归一化概率。在每个位置上用归一化概率小于选定截止点的替换被预测是有害的; 那些大于或等于临界值的被预测是可以耐受的。
为了对实验数据进行测试,我们选择了无偏置的数据集,在这些数据集中,对整个蛋白进行突变,并对野生型和阴性表型进行了分析。在文献中,我们只能找到3个数据集符合上述标准:LacI (Markiewicz et al. 1994;Suckow et al. 1996)、HIV-1蛋白酶(Loeb et al. 1989)和噬菌体T4溶菌酶(Rennell et al. 1991)。无偏数据集的缺乏表明描述大规模的突变蛋白的特性是多么困难。
预测程序的目标是从野生型中识别出不太严重但仍然受到影响的表型以及无效表型。因此,在功能测定中表现出减弱活性的表型被归为功能丧失表型。我们测试了筛选和替换评分矩阵BLOSUM55、BLOSUM62和BLOSUM80预测这些有害替换的能力。用于HIV-1蛋白酶和噬菌体T4溶菌酶数据集的SIFT参数与用于LacI突变数据的相同,SIFT分析可以推广到任何具有同源序列的蛋白。
对LacI突变数据进行SIFT与BLOSUM62预测的比较
LacI是一种DNA结合蛋白,通常抑制lac操纵子的转录。在结合-半乳糖诱导物后,LacI不再与DNA结合,从而允许有机体使用乳糖作为能量来源。大肠杆菌lac阻遏蛋白基因的位置单独突变为三联体无义密码子。在每个突变体中引入抑制因子tRNAs,在基因工程三联体密码子上插入13个不同氨基酸中的1个,分析>4000个氨基酸替换。使用-半乳糖苷酶比色法,对每一种具有单一氨基酸替换的蛋白质进行了(1)抑制乳糖操作子转录的能力和(2)抑制IPTG(诱导糖)结合的能力的测试。50%以上的位点普遍对取代具有耐受性,对氨基酸取代敏感的区域主要位于DNA和诱导剂结合位点以及二聚体界面。我们将SIFT和替换评分矩阵的预测结果与突变研究中检查的替换结果的表型进行了比较。
注:三联体无义密码子:一种指定氨基酸的密码子,通过突变转变为终止密码子(密码子,终止子)。它的发生是异常的,导致蛋白质翻译的过早终止,导致产生截断和无功能的蛋白质。
为了预测LacI上的替换,SIFT必须首先选择与抑制因子相关的序列。结合在SWISS-PROT/ TrEMBL 38蛋白数据库和翻译的微生物基因组中发现的序列结果,SIFT发现了55个与LacI相似的序列。从SWISS-PROT/TrEMBL中选择的基因被注释为属于LacI家族的转录调控因子。虽然选择的序列通常参与转录抑制被诱导剂解除,但与这些蛋白质相互作用的操作和诱导剂不同于LacI。例如,RBSR_ECOLI抑制核糖操纵子,并通过添加核糖来解除抑制。另一个选定的序列PURR_HAEIN,在鸟嘌呤存在的情况下与PUR操作符结合,并在没有辅抑制因子的情况下失去对操作符的亲和性。在这种蛋白质集合中,总体结构预计是保守的,但不一定涉及结合DNA或诱导剂的残基。
收集LacI相关序列来衡量序列保守性与取代耐受性的相关性。要根据序列的同源性来预测一个氨基酸取代是否有害,一个位置上的保守程度应该与该位置上有害取代的数量呈正相关。根据信息论,守恒可以在每个位置测量,范围从所有20个氨基酸相等表示的位置上的0 bit到固定的4.3 bit。强烈保守的位置预计不能容忍大多数替换,而弱保守的位置预计可以容忍更多的替换(见图1这个例子)。对55个选择的序列进行比对,计算每个位置的保守性。在每个位置上,守恒与实验确定的有害取代数之间的皮尔逊相关系数为0.550。这是一个保守的估计,因为在比对中的蛋白质与不同的诱导剂和操作符结合,所以对诱导剂和DNA结合重要的位置不一定在整个蛋白质序列中都是保守的。此外,实验数据在每个位置只包含12或13个替换,而在比对时多达20个氨基酸。实验突变数据和保守数据之间的高度相关性支持了这样一种观点,即我们可以从序列数据中预测给定的替换是否会影响蛋白质的功能或结构。
图1 序列守恒对应于不耐受位置。(上图) 5-38位(参与DNA结合的区域)的LacI多重比对序列标识。在每个位置上,字母堆叠表明哪些氨基酸在alignment中出现,堆叠的总高度是一种守恒的度量。(下图) 在相应位置上对LacI函数有害的替换数。具有高度保守性的位点,例如19-23,不允许替换。保守性较低的位置,如26-28,可以容忍大多数替换。位置17和18在比对结果中出现了不同,但不能容忍大多数替换。这些残基的侧链参与了DNA特异性识别,在副同源序列中不保守。
SIFT通过LacI序列比对进行预测(图2A),总体和实验预测精度均高于BLOSUM62(图2B),如表1所示。SIFT预测了2254例实验耐受替换中的1747例(78%)。对于受影响表型的替换,SIFT正确预测了1750个替换中的989个(57%)。氨基酸替换与BLOSUM62评分大于等于0被归类为保守替换,并在比对数据库中偶然性地比预期发生更多或更频繁; 这些替换是可以耐受的。得分为负的替换被归类为非保守变化,这些变化被观察到的频率比预期的要低; 这些取代被认为是有害的。BLOSUM62预测了84%(1475/1750)的有害变化,因为它的许多氨基酸替换评分是负的(图2B,位置1-50)。
(分为序列保守和替换的保守,保守序列的替换为"不保守替换",不保守序列的替换为"保守替换")
(A)对LacI替换的筛选预测。对每个位置进行12-13次替换的效果进行了分析。x轴以上的替换数是给予野生型表型的替换数; x轴以下的替换数给出了一个受影响的表型。SIFT对每一个可能的替换都进行预测,但这里只描述了SIFT正确预测的替换,并用黑色表示。x轴上方的灰色条表示假阳性误差;这些替换被SIFT预测是有害的,当它们在实验中给出野生型表型时。x轴以下的灰色条表示真负误差; 这些替换被预测是中性的,但实际上给出了一个受影响的表型。已确定参与相互作用的氨基酸侧链的标记如下: (双螺旋)与DNA相互作用的,(双柱)参与二聚体界面的。具有6个或更多不能对诱导剂作出反应的替换的位置。许多被预测能容忍替换的不容忍位置对应于这些特定的查询位置。(星号)可以容忍至少六种替换的位置,但SIFT预测这些替换中超过一半是有害的。给出了一致序列和原始查询序列LACI_ECOLI。(B) 1-50和101-150位置LacI替换的BLOSUM62预测。BLOSUM62在DNA结合区域(残基1-50)表现良好,因为该区域不能容忍许多替换。然而,在允许替换的区域,如101-150位置,BLOSUM62表现很差,预测了许多实验假阳性(x轴上方的大灰色条)。
BLOSUM62仅准确预测了31%的可耐受替换,并且在可耐受多种替换的区域表现不佳(图2B,位置101-150)。仅此替换评分矩阵并不能区分保守位置和可变位置,在宽容位置错误预测替换是有害的。BLOSUM80和BLOSUM45也进行了预测测试,与SIFT相比表现不佳,与BLOSUM62类似(数据未显示)。因为它使用特定于序列的信息,所以可以区分保守位置和可变位置,以获得更好的预测性能。SIFT正确预测的替换总数超过了BLOSUM62的14%(表1,总预测精度的差异)。在SIFT预测为有害的替换中,66%会通过β-半乳糖苷酶测定实验产生有害的表型(表1,实验预测精度)。相比之下,在BLOSUM62预测的有害替换中,只有49%在实验中产生有害表型。在实验中如果使用SIFT而不是BLOSUM62进行预测时,被预测为有害的替换的比例更高,将给出有害的表型。SIFT(1496)预测的有害替换数量小于BLOSUM62(3033)。不仅预测更准确,而且预测的有害替换数量也更小。这些数字表明,如果SIFT预测的有害替换而不是BLOSUM62预测的有害替换被用作对突变蛋白质进行实验的指南,那么(1)必须进行的实验更少,(2)更高比例的实验将产生受影响的表型。
尽管SIFT在大多数位点都能很好地识别,但它忽略了预测LacI特异性识别中的替换。有158个位置不能容忍六个或更多的替换,是的,其中56个位置可以容忍一半以上的有害替换。其中四个位置的侧链参与DNA结合接触(图1,位置17-18;图2A,双螺旋);其他九个位置的侧链参与二聚体界面(图2A,双圆柱)。其他特定接触可能涉及IPTG结合,但这些未知,因为该复合物的结构分辨率较低,因此无法识别侧链相互作用。然而,在158个不允许6个或更多替换的位置中,有31个位置(20%)至少有6个替换不能对诱导剂IPTG作出反应。如果预测错误的56个位置是随机分布的,那么预计大约有11个(0.20 X 56)位置与对诱导剂敏感的位置一致。相反,观察到20个位置(36%)与诱导物敏感位置一致,这表明许多不耐受位置的SIFT预测是由于alignment中缺乏保守性。当alignment不反映对单个蛋白质的限制时,SIFT预测。
SIFT的预测基于LacI家族中的同源序列。虽然这些序列与LacI具有相似的功能,但它们没有相同的DNA操作子或糖诱导子。直接参与LacI阻遏子功能的残基在整个alignment过程中可能不保守。这些位置在同源序列的alignment中会出现变化,不能单独从序列中识别为重要位置。这些位置缺乏保护,导致人们错过了这些不容忍的位置。
根据β-半乳糖苷酶分析,alignment中有很好的保守位置,可以容忍替换。在这些位置中的一个位置发生的替换将被预测会影响蛋白质功能,尽管在实验上它不会产生任何影响;这在功能分析中是假阳性。有趣的是,大多数具有高假阳性错误的位置聚集在C-末端子域的一个面上(图3中的红色残基)。核心四聚体的结构并不意味着这张脸参与四聚化,其他抑制因子作为二聚体参与alignment功能。也许这个C-末端表面参与了尚未发现的相互作用。
(A) Lacl作为同型二聚体(浅蓝色和深蓝色链)与DNA(黄色链)的结构。N-末端亚结构域,其界面对DNA结合很重要,变构机制位于图的上部;C端结构域位于底部。在一个单体上,可容忍六个或更多取代的186个位置被涂成白色。对于这些位置中的31个,根据SIFT预测,超过50%的替换会影响表型,而在实验中它们不会影响表型(见图2,星号)。这些位置用红色表示为空间填充原子。值得注意的是,其中许多发生在C端结构域的底面。该结构是PDB的1EFA。(B) 同一图形绕Z轴旋转90°。
SIFT和BLOSUM62预测HIV-1蛋白酶突变数据的比较
HIV-1蛋白酶将gag和gag-pol多聚蛋白切割成成熟产物,因此是艾滋病病毒成熟所必需的。HIV蛋白酶必须识别HIV多蛋白中的九个非同源位点。Loeb和他的同事(1989)测试了HIV-1蛋白酶中336个单错义突变的效果。通过随机突变产生突变,测序,然后对其处理Pol前体的能力进行评分。错义突变体分为三类:(1) 野生型,(2)中间产物,观察到加工和未加工产物,(3)阴性,蛋白酶未产生成熟加工产物。对来自BLOSUM系列的SIFT和三种替换矩阵进行了测试,以确定它们预测具有中间和阴性表型的替换是有害的,而具有野生型表型的替换是可容忍的。
对于HIV-1蛋白酶,默认参数下SIFT返回的预测比BLOSUM62返回的预测更准确(表1)。由于TrEMBL数据库可能包含突变的HIV-1蛋白酶序列,这些序列不一定具有功能,因此从SWISS-PROT数据库中选择了这些序列。选择38种蛋白酶,其中最远亲的序列与查询序列的同源性为30%。SIFT在预测中性和有害替换方面的表现优于BLOSUM62(表1)。通过Loeb等人(1989年)的蛋白酶分析,在SIFT预测的215个有害替换中,85%的替换表现出受影响的表型(表1,实验预测准确性)。
尽管SIFT的总预测准确率比BLOSUM62高8%(表1),但基于具有类似底物特异性的序列比对的预测可以进一步提高性能。该序列包含来自Rous肉瘤病毒(RSV)和禽骨髓母细胞病病毒(AMV)的蛋白酶序列,这两种病毒仅在一个残基上不同。尽管其结构与HIV蛋白酶非常相似,但已证明AMV具有不同于人类HIV蛋白酶的底物特异性。此外,RSV和AMV与HIV-1蛋白酶的紧密排列在某些位置与结构排列不匹配。这些特异性差异和错位可能降低了SIFT的性能。因此,RSV和AMV蛋白酶序列被删除,因此序列中剩余的36个序列是来自人类和猿猴的蛋白酶。SIV蛋白酶具有与HIV蛋白酶同源的底物,并且已证明以类似于HIV-1的方式切割HIV-1多蛋白底物。因此,基于此比对的预测不应与基于包含RSV和AMV蛋白酶序列的比对的预测一样被亚基特异性残基所混淆。事实上,基于无RSV和AMV蛋白酶序列比对的SIFTP性能比基于这些序列比对的SIFTP性能好3%(表1)。BLOSUM80和BLOSUM45也进行了预测测试,与IFT相比表现不佳(数据未显示)。当排除AMV和RSV蛋白酶时,有害替换的预测准确性增加,因为在人类和猿病毒蛋白酶的排列中,对底物特异性重要的残基可能是保守的。中性替换的预测值仅略有下降,这表明剩余的蛋白酶序列具有足够的多样性,可用于预测。
我们检查了文献以解释某些位置的预测失误。几个不可容忍的位点,预计容忍替代聚集在区域35-40。残基36-46显示出较大的结构偏差,并与HIV蛋白酶对底物结合的适应性有关,因此这些残基的错误可以通过底物特异性来解释。一般来说,SIFT比替代矩阵更好地预测HIV-1蛋白酶突变数据;通过仔细选择序列和比较结构,可以进一步提高性能。
噬菌体T4溶菌酶突变数据的SIFT和BLOSUM62预测的比较
最后一个使用噬菌体T4溶菌酶突变数据的测试案例表明,当只有一个同源序列可用时,SIFT可以显著改善预测。噬菌体T4产生一种可溶性溶菌酶,在大肠杆菌感染后期分解细菌细胞壁。噬菌体T4溶菌酶使用琥珀抑制tRNA进行诱变研究。与LacI结果类似,大约一半的位置可以替代所有测试的替代物。溶菌酶功能通过菌斑形成进行检测,突变株通过菌斑大小进行评分。斑块大小与野生型相同的突变体被评为野生型。对于斑块较小的突变体,对中间表型进行评分。不产生斑块的突变体被评分为无效。我们测试了SIFT是否能够预测具有野生型表型的突变体为耐受性,以及具有中间或无效表型的突变体是否为有害的。
当使用自动程序选择相似蛋白质时,溶菌酶氨基酸序列无法满足SIFT选择相似序列的标准。向用户返回了一个错误,表明没有足够的序列,用户应该手动检查结果。SIFT alignment在与二级结构相对应的区域和在远处蛋白质之间保守的核心区域中存在缺口。只有VG05_BPT4(T4噬菌体中的尾部相关溶菌酶)与T4噬菌体可溶性溶菌酶(43%同一性,3%间隙)很好地alignment。这种蛋白质在功能上与可溶性溶菌酶相似,因为尾部相关的溶菌酶突变体可以替代它。生物学证据和全球成对比对支持VG05_BPT4作为预测噬菌体T4溶菌酶的良好候选。
利用来自可溶性溶菌酶查询和VG05_BPT4的序列信息,SIFT的预测结果优于BLOSUM62。与BLOSUM62相比,正确预测中性替换的数量是BLOSUM62的两倍(59%对30%),预测有害替换的数量减少了13%,因此总预测准确率高出25%(表1)。SIFT的表现优于BLOSUM80和BLOSUM45(数据未显示)。可能由于预测仅基于两个序列,因此有许多宽容位置被预测为不宽容。由于可溶性溶菌酶从内部破坏细菌细胞壁,而与尾部相关的溶菌酶从外部识别细胞壁,因此错误预测可耐受替换的一些不耐受位置可能是专门识别细菌细胞壁组成的残基。在该突变数据集上的性能表明,仅从单个同源序列获得的附加信息比从替换矩阵得到的预测结果更好。
讨论
SIFT是一种通过序列比对结合位置特异性信息的新工具,专门用于预测氨基酸替代是否影响蛋白质功能。对于所有三个测试用例,SIFT的正确预测替换数都高于替换得分矩阵。此外,在实验分析中,预测由IFT有害的替代比预测由替代基质有害的替代对表型有更高比例的影响。对于所有的数据集,SIFT的预测失误比替代矩阵的预测失误要少,即在实验上可以容忍的情况下,替代是有害的。对于三个数据集中的两个数据集,SIFT比替代评分矩阵更有害。这些错误中的一些是由特定于查询的交互造成的,这些交互在家族中并不保守。
SIFT仅根据序列数据进行预测,不依赖于蛋白质结构或功能的知识。只有当同源序列可用时,才能通过SIFT评估非特征蛋白质中的替换。尽管SIFT可以自动选择序列,但当提供同源物列表时,可以获得更好的预测结果,如HIV蛋白酶突变数据所示。理想的预测序列集是对齐良好的同源序列。具有不同生化功能的副同源体将混淆仅在直系同源体中保守残基的预测。然而,随着蛋白质数据库随着全基因组测序数据的增长,将有更多的同源基因可用,SIFT预测应该变得更准确。
令人惊讶的是,几乎不需要序列来观察替代评分矩阵预测的改进。在溶菌酶的情况下,我们观察到只有一个序列与测试蛋白同源,SIFT预测明显优于使用广义替代评分矩阵进行预测。这表明,与替换矩阵相比,只有一个发散的亲属,SIFT可以提供更好的预测。
我们的结果表明,与替换评分矩阵判断为非保守的替代相比,给定一组待分析的替换,预测为有害的替换将产生更大比例的受影响表型。一些预计会被SIFT容忍的替换实际上可能是有害的;LacI测试案例表明SIFT无法识别对功能重要但尚未在整个家族中保存的残基。根据功能分析,预测不耐受但耐受替换的位置可能涉及分析未检测到的未知功能。在LacI中,许多在DNA和糖结合分析中容忍替换的保守位置同时出现在C末端亚结构域的暴露面上。由于这些残基在发散但功能相关的序列中是保守的,这表明该C-末端表面可能参与了一种未知的相互作用。保守位置的替换在功能分析中仍表现为野生型,但可能涉及现有分析未测试的体内功能。
对数赔率替代评分矩阵中的大多数分数为负值,以防止序列比对在数据库搜索中错误扩展。例如,平均而言,在给定氨基酸的19种可能替代物中,有14种在BLOSUM62中得分为负值,并被归类为非保守性变化。如果对被替代评分矩阵视为非保守的替代进行功能分析,许多有害的突变体将被检测到,因为该矩阵主要由阴性条目控制。当使用矩阵预测而不是SIFT时,表征大多数有害替代的好处是以分析不影响表型的替代为代价的。如果要描述的变体很少,或者重要的是不要遗漏任何改变蛋白质功能的变体,那么描述所有替换或替换矩阵中得分为负值的替换是一个好策略。然而,在产生许多错义突变的大规模项目中,将不必要的实验数量降至最低比识别所有有害的替代更为重要。因此,对于大型项目,SIFT将比替换评分矩阵更有效。初步数据显示,SIFT预测3500多个致病替代物中有69%是有害的,这表明SIFT可能适合在基因组规模上进行自动预测(数据未显示)。
连锁不平衡和关联研究利用多态性数据寻找可能导致或增加疾病风险的遗传因素。在关联或连锁不平衡研究中确定的标记中,SIFT可以预测导致氨基酸变化的标记本身可能是对蛋白质产生有害影响的原因。由于进行连锁不平衡和关联研究需要大量的多态性数据,目前正在鉴定过多的错义突变,并且一些错义变体本身可能与疾病有关。已知导致人类遗传性疾病的基因损伤约有一半是由氨基酸替换引起的,这表明氨基酸替换在疾病中起着重要作用。在一项关于已知结构的蛋白质中非同义SNPs的研究中,45%的错义变体映射到结构和功能上重要的区域,并且有人认为大部分非同义SNPs可以对编码的蛋白质产生强烈的影响。Sunyaev等人(2000年)只研究了86个非同义单核苷酸多态性,因为它们依赖于结构进行分析。由于它使用的是序列同源性而不是蛋白质结构,因此与仅基于蛋白质结构的研究相比,它可能分析更多的非同义SNP。在HGBASE这一可能与疾病有关或可能不涉及疾病的人类序列变异的公共数据库中,截至2000年1月,共有20482个基因变异,其中3146个导致氨基酸替换。据预测,最终会有∼200000个编码序列变体,这表明仅在该数据库中最终可能有30000个错义变体。错义变体的数量之大使得测试所有这些替换对其编码的蛋白质的影响是不可行的。因为这是一个自动化的、相对快速的程序,它可以用来预测哪些错义变体可能是有害的,从而确定哪些错义变体可能是疾病的候选者,哪些蛋白质应该接受进一步的研究。
SIFT还可以应用于大规模的反向遗传项目,在这些项目中,在实验生物体的基因组中随机引入突变,识别改变的基因,然后确定产生的突变的表型。这些大规模项目中使用的化学诱变剂在编码区产生的大多数突变导致氨基酸替换。速率限制步骤可能是决定哪些突变体需要进一步研究。当一个基因以随机突变为目标时,同样的困境也会出现。如果有害突变体的表型未知或难以测定,SIFT可作为指导哪些突变可能对蛋白质功能有害并值得研究。
Methods部分感兴趣可见原文
end