前一阵读药理学基础知识的目的,就是为了更好地理解新药研发的过程;事实也证明,这部分基础知识的夯实确实大大帮助了我理解新药研发过程。而理解新药研发,是为了更好地理解AI在该方面的应用,及存在的痛点问题,以便于提出AI+新药研发的相关科学问题
今天,我们来开始书写对新药研发过程的理解
一、新药的定义:新药是指新研制的、临床尚未应用的药物,其化学结构或组分、药理作用或应用方式等应不同于现有药品。新药的化学本质应为新发现的活性化合物,或称新化学实体 (new chemicalentities,NCE)、 新 分 子 实 体 (new molecularentities,NME)、新活性实体 (newactivesubstances,NAS)
二、新药研发总流程
主要分为药物发现与开发两个过程,本文主要集中在药物发现的过程
- 药物发现即包含了靶点发现、先导化合物发现、先导化合物优化以及最终得到候选药物
-
药物开发:主要是药物的临床试验过程
三、药物发现
其流程即:发现疾病新靶标--根据靶标筛选或设计先导化合物--优化先导化合物--获得候选药物。
- 发现新靶标是药物发现的起点,决定了后续药物发现过程的方向和成败。
- 根据靶标筛选先导化合物:除外传统、古老的药物筛选手段,现代药物筛选主要就是高通量筛选和虚拟高通量筛选
- 根据靶标进行先导化合物设计
- 优化先导化合物:这个过程是反复多次循环的
- 获得候选药物
对于我而言,感到陌生、比较难理解的部分是先导化合物的筛选(含高通量和虚拟高通量)、先导化合物的设计。因此本文要着重理解这部分让人感到困惑的内容。同时在理解重点内容的同时,也要兼顾思考AI在哪个模块有哪些典型应用,并关注其中亟待解决的痛点问题。
-
3.1 疾病新靶标发现
- 药物靶点的发现,主要依赖于基础科学。既往基础研究中发现新靶标、新基因的方法(例如差异基因及其下游功能分析等一系列生信分析的方法)就是发现疾病新靶标的方法
- 但是在药物发现领域,即使发现了新靶标,我们仍然要谨慎对待,考虑先前曾经失败的例子,以充分评估接下来药物研发失败可能的原因:
- 3.1.1. 阿尔茨海默病(AD)至今无法找到合适的靶标
- 3.1.2.某些疾病虽然被证明与某疾病存在相关性,但其靶点药物却并不能呈现应有的治疗作用:胆固醇脂转运蛋白(cholesteryl ester transfer protein,CETP)抑制剂治疗高胆固醇血症的失败例子(详见参考书籍1 P28)提示:CETP或许不是治疗心血管疾病的可行标靶 或者目前CETP抑制剂设计仍存在缺陷,如脱靶作用或药代动力学的问题
- 3.1.3. 某些药物虽然能够作用于预期的靶点,但是对非预期靶点/信号通路的作用可能会影响其发挥预期的疗效:γ分泌酶在淀粉样斑块的形成中被证实具有重要意义,其抑制剂用于阿尔茨海默病的临床研究虽然能够降低淀粉样斑块,但无法改善患者认知功能;原因可能是该抑制剂干扰了Notch通路的信号转导调节
- 3.1.4. 针对已知靶点药物进行升级换代开发(即Me-too or Me better)时的考量:积极方面看,既往前人的研究基础能够给后续药物发现提供诸多参考依据和信心;但积极方面即为劣势:包括专利申请可能会触犯既往专利权和现有政策多引导Me better,然而要做到Me better并非易事
- 3.1.5. 药物发现要充分考量其能够带来的利益回报
接下来是本文重点内容,先导化合物的发现。先导化合物的发现在现代以前主要是靠“试”和经验积累。现代先导化合物的发现本质上就两条路:1.从已有的化合物中筛选 和 2.从无到有(从头设计)
不管是筛选还是从头设计,始终贯穿的模式是“靶点--化合物”。“发现新靶标是药物发现的起点”这句话不是随便说说,新靶标的不确定性始终影响着后续药物筛选和设计的过程:
1. 发现的新靶标只知道编码基因和氨基酸序列,不知道其蛋白质结构。
2. 知道靶标的蛋白质结构,但并不清楚其配体与其结合的位点。
3. 知道靶标的蛋白质结构和配体结合位点。
由此我们可以看出,即使发现了新靶标,我们也不见得能够真正了解新靶标的结构和成药性,这为后续先导化合物的发现带来了困难。而尝试解决上述困难的方法包含但不局限于:
1. 直接设计靶基因的干扰RNA
2.在不知道蛋白质结构的前提下, 直接进行高通量化合物筛选 或者从配体出发进行高通量筛选或设计
3.通过X线分析蛋白质结构、根据基因/氨基酸序列预测蛋白质结构(AlphaFold2)
4. 在清楚靶蛋白结构和配体结合位点的前提下,进行高通量筛选、虚拟高通量筛选或药物设计。
由此我们可以得出,“发现新靶标是药物发现的起点”在实际操作过程中的内涵是我们要进一步解构新靶标,并根据对新靶标结构情况的了解,有的放矢地选择后续药物发现的方法路径。接下来我们介绍现代药物发现的两大主要方式:筛选和设计。在此过程中,我们对相应方法的理解,要结合该方法对新靶标结构所需的了解程度和具体应用方式。
-
3.2 先导化合物的筛选
在进行先导化合物筛选之前,可以先根据Lipinski类药5原则筛选具有成药性的化合物:1)分子量低于500;2)LogP值低于5;3)氢键供体数少于5个;4)氢键受体数少于10个;5)可旋转键数少于10个。
-
对于高通量筛选得到的数据,须考虑到如下关键点
首先最重要的是假阳性和假阴性的结果的可能性 试剂处理操作存在发生错误的可能 被筛样品可能变质,因而会采用高效液相色谱/质谱(HPLC/MS)等方法测试真正有活性的化合物的纯度 后续还要对筛选到的化合物进行重复验证
接下来介绍先导化合物筛选的两种方式:1.高通量筛选 2.虚拟高通量筛选
-
3.2.1 高通量筛选(high throughput screening,HTS,分为生化检测和细胞检测)
直接进行高通量筛选,对新靶标的结构无需了解,直接利用生化检测或细胞检测,根据有效生理效应(表型)或生化活性数据来判定和筛选即可。
-
现代高通量筛选技术的发展,是建立在其他基础科学手段发展的基础上。
1.DNA重组、转染技术和PCR等技术成功构建了过表达靶蛋白的细胞系。 2.过表达的靶蛋白通过提取可用作体外生化检测 3.链霉亲和素--生物素--靶蛋白将靶蛋白固定于微型板,便于大规模体外筛选 4.体外筛选方法自动化、微型化(96孔板--3000+板) 5.计算机--化合物库
高通量筛选中的衡量指标(可参见第二章--药效学中的量效关系、构效关系)
量效曲线和IC50、解离常数(Kd)和抑制常数(Ki)、亲和力与效能(EC50)-
3.2.1.1高通量筛选中的生化检测
生化检测在无细胞的条件下进行,能够直接提供候选化合物与靶标之间的作用信息,是药物发现过程中的识别潜在化学信息的第一步
由于其在无细胞条件下进行,具有诸多劣势:1.无法检测酶活性导致的细胞变化 2.无法评价与细胞上的受体结合后的生物学效应以及胞内级联信号转导
-
常见生化检测方法包括:
1.放射性配体检测系统:采用闪烁原理作为量化大分子靶标和候选化合物相互作用的手段。 含有靶标的细胞/膜 + 放射性配体 + 候选化合物。放射性配体与靶标结合后可通过闪烁剂使其发光; 候选化合物竞争性结合靶标后,使得发光减弱;通过量化发光减少量来测定候选化合物与靶标之间的作用强度。 2.临近闪烁分析法(SPA): 本质上仍然是放射性配体检测法,只不过将闪烁剂和靶标蛋白同时固定在了滴定板上。 3.酶联免疫吸附试验(enzyme-linked immunosorbent assay,ELISA): 实际是借用了SPA的思想: 抗原涂层+抗体+共价连接的酶,酶作用于底物能够引起颜色变化; 而酶抑制剂(即候选化合物)能够阻断酶作用于底物,引起颜色强度减小。 4.荧光分析系统:1)荧光偏振 2)荧光共振能量转移 3)时间分辨荧光共振能量转移 4)放大化发光亲和均相检测 5)钙通道荧光检测 6) 5.报告基因分析:1)氯霉素乙酰转移酶 2)β-内酰胺酶报告基因检测 3)荧光素酶报告基因检测 6.动态荧光监测系统 7.无标记检测系统:1)细胞介电谱 2)光学生物传感器 3)表面等离子共振技术 8.电生理膜片钳技术
-
3.2.1.2高通量筛选中的细胞检测
- 细胞检测保留了完整的细胞功能,更接近真实的体内环境
- 某些时候靶标蛋白受到科学技术或者竞争性专利保护的限制,无法分离纯化,故此时细胞检测是唯一的可行方案
- 许多靶标和生物过程必须用细胞检测的方法实行,例如离子通道活性、细胞膜转运、信号转导、抗菌活性和抗增殖活性
- 存在的缺点:1.首先在结果解释的时候要考虑脱靶作用,因而可能产生假阳性和假阴性结果。2.细胞内的标靶,膜渗透性效应可能会降低可检测到的信号效应水平
-
3.2.1.3 高通量筛选方法的选择
- 成本问题
- 数据的可重复性和可靠性
- 通常的实验顺序是体外生化检测--细胞和组织水平检测--动物模型,实验结果前后要能够衔接一致
- 现代实验技术的发展为我们提供了数千种选择,但如何设计和选择合理有效的药物活性筛选方法仍然取决于药物研究者本身的素质和能力
-
3.2.2虚拟高通量筛选(virtual HTS),又称计算机筛选
- 利用虚拟化合物库(免费的ZINC)与生物靶标的结构数据,采用分子对接技术,用以评估化合物与目标靶点相互作用的强弱。
-
虚拟高通量筛选是一个建模过程(AI),但它的本质是输入化合物和生物靶标,预测输出是化合物与生物靶标的结合{与否:二分类结果,强度:连续变量}。因此输入数据是化合物结构和生物靶标,输出结是是化合物与生物靶标的结合[{与否:二分类结果,强度:连续变量}]。而分子对接技术就是基于既往的化合物结构和生物靶标建立好的模型知识(即训练模型)。
因此决定虚拟筛选预测准确度的就是分子对接技术/训练模型。既然是训练模型,则虚拟筛选的预测准确性必然不是百分百准确的,就会有来自各方面的干扰因素,也即是可以提升的方面。可以归纳为三个方面:1.输入数据 2.算法 3. 输出数据
-
3.2.2.1.输入数据
- 生物靶点的结构信息可以通过X射线单晶衍射获得;不过需要注意的是X射线晶体结构展现的是靶点在固态下的结构,可能与生物靶点发挥活性的构象并不一致
- 蛋白质晶体结构也可以通过结构生物信息学研究协作组织蛋白数据库(res}$earch collaboratory for structural bioinformatics(RCSB) protein data bank(PDB))获得
-
3.2.2.2.算法暂略
-
3.2.2.3.输出数据暂略
- 利用虚拟化合物库(免费的ZINC)与生物靶标的结构数据,采用分子对接技术,用以评估化合物与目标靶点相互作用的强弱。
-
3.3 先导化合物的设计
参考文献
新药研发流程_知乎
抗肿瘤靶点的药物发现_药明康德
参考书籍1《药物研发基本原理主译白仁仁》
参考书籍2《新药发现与开发主编陈小平》