很多生物医学研究以及新疗法的开发都集中于极少部分人类基因组,还有相当多与疾病相关的蛋白有待开发,这其中其实蕴藏了很多科研与商业机会。NIH启动可成药基因组项目(Druggable Genome Program),旨在促成更多靶点研究。
药物靶点的分类
目前蛋白的分类主要是基于结构或者功能进行。对于靶点开发,基于靶点的开发情况(种类、数量等)进行分类会更有指导意义。因此,我们基于靶点的开发状态(target development levels,TDL)把蛋白分为4类:
(1)Tclin:根据作用机制研究认为是药物靶点的蛋白。
(2)Tchem:受小分子化合物调节的蛋白(生物活性指标优于cut-off 值:激酶≤30nM;GPCR≤100nM;离子通道≤10uM;非IDG家族靶点≤1uM)。
(3)Tbio:经OMIM(在线《人类孟德尔遗传》)疾病表型或GO (Gene Ontology)注释收录的蛋白,或同时满足以下两个条件的蛋白:在PubMed的摘要中被提到超过5次,3个或以上的RIF (Gene Referenc Into Function)注释,或根据抗体百科全书(Antibodypedia)该蛋白已开发有超过50种抗体。
(4)Tdark:其他很少被研究和指征的蛋白。图1以环形图的形式呈现了各类蛋白(基于功能分类和基于靶点开发分类)的百分比。其中已开发为药物靶点的蛋白(Tclin)仅有3%,而能特异性运用小分子调控的蛋白(Tchem)少于10%,还有很多蛋白是潜在的药物靶点。
[图片上传失败...(image-339c0b-1645258003065)]
图1 各类蛋白的靶点开发情况和占比
靶点开发状态的评价
我们对不同来源的数据进行分析,比较各种蛋白(特别是Tdark)的TDL。
图2为归一化的评分情况,前3组是基于PubMed摘要、基因RIF数量和抗体开发数量进行分析,后4组的评价则基于以下标准:
(1)根据UniProt数据库的信息进行GO注释分析,超过90%的Tdark和少于10%的Tclin有10个以下的GO注释。
(2)根据每个蛋白相关的NIH的R01基金项目进行分析,大部分Tdark并没有拿到R01的资助。
(3)根据每个蛋白申请的专利对SureChEMBL的数据进行分析,Tdark的专利数量显著少于其他类蛋白。
(4)根据检索的实验信息量(超过70个基因组数据库,包括生物学实验数据、人类与模式生物疾病表型、基因表达转录情况、信号通路、生物学功能等)进行综合评分,Tdark能获取的信息量比其他类蛋白少。以上的分析都表明,我们对Tdark这类蛋白的了解仍有很多盲区,Tdark具有巨大的开发潜力。
[图片上传失败...(image-944d5-1645258003064)]
图2 各类蛋白基于不同数据来源的TDL归一化评分
基于靶点的药物销售分析
在分析这些现有和潜在的药物靶点时,人们或许会问:“那么最挣钱的靶点是什么?”为了回答这一问题,我们对来自IMS的75个国家2011-2015年药品销售数据进行分析,除去植物药、中药和顺势疗法药物及非靶向人源靶点(如抗病毒药物)的药物,共有51095个原研药物,可归类为1069个药物活性成分(APIs)。
各类药物的销售额进行归一化后以环形柱状图呈现在图3中。
其中7大类药物靶点的销售情况见表1,而全球top20的靶点销售情况见表2。
[图片上传失败...(image-d561c0-1645258003064)]
图3 各类药物的销售情况(2011-2015年)
[图片上传失败...(image-7e776e-1645258003064)]
表1 7大类药物靶点的销售情况(2011-2015年)
[图片上传失败...(image-887215-1645258003063)]
表2 全球top20的靶点销售情况(2011-2015年)
数据来源:“Unexplored opportunities in the druggable human genome”. Poster from