高通量机制驱动表型化合物筛选的深度学习框架及其在COVID-19药物再利用中的应用

A deep learning framework for high-throughput mechanism-driven phenotype compound screening and its application to COVID-19 drug repurposing

https://www.nature.com/articles/s42256-020-00285-9

基于表型的化合物筛选比基于靶点的药物发现具有优势,但不可扩展,对药物作用机制缺乏了解。化学诱导的基因表达谱提供了表型反应的机制性特征;然而,这些数据的使用受到其稀疏性、不可靠性和相对较低的吞吐量的限制。很少有方法可以进行基于表型的从头化合物筛选。在这里,我们提出了一种基于机制驱动的神经网络方法DeepCE,它利用图形神经网络和多头注意机制来模拟化学亚结构-基因和基因-基因关联,以预测由从头化学物质扰动的差异基因表达谱。此外,我们提出了一种新的数据扩充方法,从L1000数据集中不可靠的实验中提取有用的信息。实验结果表明,DeepCE的性能优于现有的方法。DeepCE生成的基因表达谱的有效性通过与下游分类任务的观察数据进行比较得到了进一步的支持。为了证明DeepCE的价值,我们将其应用于COVID-19的药物再利用,并产生与临床证据一致的新的先导化合物。因此,DeepCE通过利用噪声组学数据和筛选新的化学物质来调节系统对疾病的反应,为稳健的预测建模提供了一个潜在的强大框架。


以靶向为基础的高通量筛选在传统的药物发现过程中占主导地位。几十年来,它一直是计算机辅助药物发现的焦点,包括深度学习的最新应用;然而,一种化学物质对一种蛋白质的调节所产生的读数与机体水平的治疗效果或副作用关系不大。因此,从靶向筛选产生的先导化合物到批准药物的失败率很高。基于表型的筛选为鉴定细胞活性化合物带来了新的兴趣,但由于高通量和目标反褶积困难。因此,高通量、机制驱动的表型化合物筛选方法将有助于药物的发现和开发。

基因表达谱已被广泛用于表征细胞和机体表型。对人类细胞系化学扰动的全基因组基因表达的系统分析已经导致了药物发现和药理学系统的重大改进。特别是,基因表达谱可应用于药物重组1、2、3、4、发现药物机制5、识别先导化合物6和预测临床前化合物7的副作用。使用全基因组化学诱导的基因表达最初是由于连接性图谱(CMap)8的出现而成为可能的,该图谱由5个人类癌症细胞系的基因表达谱组成,这些细胞系在6小时后受到约1300种化合物的干扰;然而,跨细胞类型的有限数据可用性限制了上述分析的性能,这在很大程度上取决于化学品和人类细胞系的覆盖范围。为了克服这一限制,美国国立卫生研究院(NIH)综合网络细胞特征库(LINCS)项目9开发了一种新的基因表达谱分析方法L1000(它是CMap项目的扩展)。在LINCS的第一阶段之后,L1000数据集包含了约1400000个基因表达谱,这些基因表达谱是关于约50个人类细胞系对约20000种化合物中的一种在不同浓度范围内的反应。L1000数据集及其规范化版本10最近广泛用于药物再利用和发现11,12。尽管取得了这些成功,但在使用L1000时仍存在几个主要问题。首先,尽管基因表达谱的数目比CMap中的要大得多,但是在化学品和细胞系的巨大组合空间中仍然存在许多缺失的表达值。第二,有数以亿计的类似药物的、可购买的化学物质是潜在的候选药物13。用实验方法检测所有这些化学物质在多个细胞系中的化学诱导基因表达谱是不可行的。最后,由于各种实验问题(例如批量效应),许多实验测量不可靠(如补充图1所示)。这些严重的障碍将限制利用L1000数据集进行药物发现的有效性和范围。因此,为不可测量和不可靠的实验预测基因表达值是必要的。

组合空间中丢失的条目不是L1000数据集独有的问题。在L1000出现之前,已经提出了几种基因表达数据缺失值的插补方法。我们将这些方法分为两种主要方法,它们依赖于基因表达数据以外的其他信息。第一种方法不使用任何额外的信息。遵循这种方法的工作包括k近邻(kNN)14、奇异值分解14、最小均方15、16、17、贝叶斯主成分分析18、高斯混合聚类19和支持向量回归20。第二种方法使用额外的信息来预测表达谱。例如,化学结构用于预测化学诱导的基因表达,但这项工作没有考虑细胞特异性信息21。

上述方法是为矩阵结构数据(即,基因××实验)设计的,而L1000数据集是张量结构数据(即,基因××化学××细胞××剂量××时间),因此不能用于捕捉有助于插补缺失值的高维关联1000英镑。在L1000数据集中,提出了几种预测基因表达谱的方法。特别是,为了处理高维结构化数据,我们开发了一个称为多元回归的线性回归模型的扩展,以捕获特征间出现的交互作用22。矩阵完成方法也适用于处理张量结构的基因表达数据23,24。

化学诱导基因表达预测模型及数据集

在本节中,我们介绍了我们研究中使用的数据集和我们提出的模型DeepCE,以及用于预测基因表达谱的基线模型,如线性模型、香草神经网络、kNN和张量训练权重优化(TT-WOPT)模型。图1显示了用于L1000基因表达谱预测的训练和测试这些计算模型的一般框架。基本上,计算模型以L1000的实验信息(即化合物、细胞系、时间戳和化学剂量)为输入,将其转化为数值表示,然后根据这些表示预测L1000的基因表达谱。在我们的研究中使用的化学和生物物体的数值特征转换过程以及DeepCE和其他基线的模型实现的细节见补充说明2和4。本文还提出了从L1000不可靠实验中提取有用信息的数据增强方法,以提高模型的预测性能,并给出了模型的评价方法。

图1:用于训练L1000基因表达谱预测的计算模型并将其用于下游应用(即用于COVID-19治疗的药物再利用)的一般框架。

θ是一组模型参数,f是θ的函数,用于将实验信息映射到基因表达谱,l是θ的函数,用于计算预测基因表达谱和基本真基因表达谱之间的差异。学习过程的目标是尽量减少L1000数据集中预测剖面和地面真实剖面之间的损失。经过训练后,这些模型被用于在外部分子数据库(DrugBank)中生成新化学品的配置文件。然后将这些图谱用于电子筛选(与患者基因表达进行比较),以寻找治疗COVID-19的潜在药物。

数据集集合

在下面的段落中,我们介绍了我们研究中几个生物数据集的细节和用法,包括L1000、STRING、药库和COVID-19患者的转录组数据。我们还在补充表1中提供了这些数据集的摘要。

基于贝叶斯的L1000数据峰值反褶积

在L1000的原始版本发布9之后,人们做出了许多努力来提高这个数据集的质量。例如,一些工作建议使用高斯混合模型来提高峰值反褶积步骤26、27的精度,而不是按照原始版本使用k均值聚类算法。另一项工作是开发一种称为特征方向的多变量方法来计算基因特征,而不是使用原始版本10的调节z-分数。在我们的研究中,我们在基于贝叶斯的峰值反褶积L1000数据集上进行了实验,结果表明,该数据集可以从L1000分析数据中生成更稳健的z-分数剖面,因此可以更好地表示扰动因子28。特别是,我们在这个数据集的第5级数据上训练和评估我们提出的方法。利用L1000数据集中7个最常见细胞系和6个最常见化学剂量的实验结果构建了我们的基因表达数据集。然后,我们从我们的数据集中选择高质量的实验,并将它们分成高质量的训练集以及开发和测试集。我们还通过在我们的基因表达数据集中保留不可靠的实验来构造原始训练集,并通过我们的数据扩充算法生成扩充训练集。这些集合的构造细节见补充说明1。这些培训、开发和测试集的统计数据见补充表2。

人类蛋白质相互作用的字符串数据库

STRING29是蛋白质相互作用的多源数据库。这些可以直接(物理)或间接(功能)已知或预测的相互作用来自五个主要来源,包括基因组背景预测、高通量实验室实验、保守共表达、自动文本挖掘和过去的知识数据库。在我们的设置中,我们从这个数据库中提取人类蛋白质-蛋白质相互作用网络(即约19000个节点(蛋白质)和约12000000个边缘(相互作用)),以计算L1000基因的载体表达。在我们的研究中使用的化合物的药物靶向载体表示也由这个人类蛋白质-蛋白质相互作用网络计算。从字符串数据库生成这些表示的详细信息见补充说明2。

用于药物-靶点相互作用和疾病预测的药物库数据库

DrugBank是一个著名的综合数据库,用于许多生物信息学和化学信息学任务30。这个数据库包括有关药物及其靶点的信息。在我们的实验中,我们从ATC树的第一级提取解剖治疗化学(ATC)标签,并从DrugBank的L1000数据集中提取药物靶点。在提取的数据集中有698个药物靶点和14个ATC标签。在此数据集中,我们根据药物标签的出现频率,选择出现频率最高的ATC标签和药物靶点作为药物标签,分别形成药物靶点和ATC预测数据集。这些数据集用于评估从我们的模型生成的基因表达谱的性能。我们还预测了DrugBank中所有药物的基因表达谱,并用它们来筛选COVID-19治疗的潜在候选药物。

SARS-CoV-2感染对患者表达的影响

本研究的患者表达数据集可从国家基因组数据中心(NGDC,PRJCA002273)31和国家生物技术信息中心(NCBI,GSE147507)32下载。前者包括8例SARS-CoV-2患者和12例健康样本,后者只有1例SARS-CoV-2患者和2例健康样本。对于每个数据集,我们使用来自SARS-CoV-2患者和健康阴性对照的表达谱进行差异表达分析。因此,第一个数据集可以被认为是基于人群的基因表达分析,而第二个数据集是针对患者的基因表达分析。DESeq233包用于生成患者的差异基因表达谱。并不是所有的L1000基因都出现在DESeq2包的结果中,因此我们在与化学诱导的基因表达谱进行比较时,只考虑同时出现在L1000数据集和DESeq2包中的基因。

该模型由三个主要部分组成:用GCN生成化合物特征的特征转换部分,用预先训练好的信息表示L1000个基因,用前馈神经网络生成细胞和剂量的特征;学习高级特征关联的交互网络(省略与交互网络中第一层结构相似的第二层的细节以节省空间);从高级特征预测基因表达谱的预测网络。

神经指纹的GCN

对于许多生物预测问题,数据驱动的化学指纹比预先定义的化学指纹(如PubChem,Extended Connectivity Fingerprint(ECFP))更有效。因此,我们建议使用GCN来捕捉化学子结构信息。用于化学指纹的原始GCN模型34以化合物的图结构作为输入,并通过卷积运算从图(化合物)的邻域更新图(化合物)中的每个节点(原子)的向量表示。因此,卷积运算后每个节点的向量可以看作是化学子结构的表示。最后一个向量(每个节点的向量之和)作为化学指纹。在我们的实验中使用的GCN模型主要是基于该模型,但有一个小的修改。特别是,我们为每个节点输出向量表示,而不是为化合物输出一个向量表示,因为我们想要模拟化学子结构特征与基因特征的关联。在我们的设置中,我们使用具有两个卷积层(半径,R = 2)的GCN模型。这意味着每个原子的GCN的输出向量表示化学子结构,它是该原子的两个跃点的跨度。原子的初始表示(捕捉原子的符号、度、氢邻域数和芳香性)和键的初始表示(捕捉键的类型)分别是长度分别为62和6的多个热向量。实验中使用的GCN模型的细节见补充算法1。

基因-基因和化学亚结构-基因特征关联的多头注意

注意机制是一个集合中的一个元素根据注意权重有选择地聚焦于另一个集合(注意)或其集合(自我注意)的子集,在基于神经网络的模型中得到广泛应用,并有效地应用于许多人工智能任务,包括计算机视觉和自然语言处理。在我们的实验中,我们提出应用多头注意方法来模拟基因特征、基因和化学子结构特征之间的关联。在transformer模型中首次提出了多头注意,它为许多自然语言处理任务提供了最新的结果35。基本上,集合中的每个元素都可以由一组三个向量表示:查询、键和值。单个注意模块是一个将查询和键值对集映射到输出矩阵的函数,输出矩阵由以下公式计算:

{\mathrm{Attention}}({Q},{K},{V})={\mathrm{softmax}}\left(\frac{{QK}^{T}}{\sqrt{{d}_{k}}}\right){V}

其中Q、K、V分别是查询、键、值的矩阵(集合),T是转置运算,dk是缩放因子。多头注意通过连接几个单独的注意模块来关注不同的表示子空间:

{\mathrm{MultiHead}}({Q},{K},{V})={\mathrm{concat}}({\mathrm{hea{d}}}_{1},...,{\mathrm{hea{d}}}_{h}){{W}}^{O}

其中{\mathrm{hea{d}}}_{i}={\mathrm{Attention}}({Q}{{W}}_{i}^{Q},{K}{{W}}_{i}^{K},{V}{{W}}_{i}^{V}),WO,WQ,WK,WV是学习参数,h是头数。

这种多头注意机制是用来构建DeepCE交互成分的主要成分。特别地,交互组件包括两个相同的层,其中第一层的输出用作第二层的输入。对于每一层,我们使用两个独立的多头部注意模块,每个模块有四个头部来模拟基因集中的基因之间以及基因集中的元素和化学子结构集中的元素之间的关联。查询、键和值向量的长度设置为512。将这两个多头注意模块的输出串联起来,放入归一化层、前馈层和另一归一化层。交互组件的抽象架构如图2所示。

多输出预测

多输出预测组件是一个具有校正线性单元(ReLU)激活函数的两层前馈神经网络,将输入作为化学神经指纹、互作组件生成的基因特征、细胞系和化学剂量特征的串联,以预测所有基因的基因表达值L1000基因组合如下:

{Y}={{W}}_{2}(\mathrm{{ReLU}}({{W}}_{1}{X}+{{\bf{b}}}_{1}))+{{\bf{b}}}_{2}

其中W1、W2、b1、b2是该网络的权重矩阵和偏差向量。这个前馈神经网络的输出大小被设置为978,这是L1000个基因的数目。

目标函数

DeepCE模型中使用的目标函数是预测值和基本真值基因表达值之间的均方误差(MSE),计算如下:

{{\bf{loss}}}_{\mathrm{DeepCE}}({{\Theta }})=\frac{1}{NM}\mathop{\sum }\nolimits_{i = 1}^{N}\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{y}_{i,j})}^{2}

其中,Θ是DeepCE模型中的一组参数;N和M分别是数据集中基因表达谱的数量和L1000基因的数量;zi,j和yi,j分别是第i个基因表达谱中第j个基因的基本真值和预测基因表达值。

基线模型

在本节中,我们描述了我们实验中使用的几种基线模型,包括线性模型、香草神经网络、kNN和TT-WOPT24。

线性模型

我们实验了一个多输出线性回归模型及其正则化版本,包括套索回归(L1正则化)和岭回归(L2正则化)模型。与DeepCE类似,这些模型的输入是化学、基因、细胞系和化学剂量特征的数值表示的串联,但是我们使用预定义的化学指纹和药物靶点特征,而不是来自GCN的数据驱动表示。这些陈述的细节在补充资料中描述。多输出线性模型可以看作是无激活函数的单层前馈神经网络。

香草神经网络

我们实验中使用的香草神经网络可以看作是DeepCE模型的一个简单版本,它不包括用于模拟基因-基因和基因-化学子结构特征关联的交互网络组件,以及用于生成神经指纹的GCN。这种普通神经网络的输入类似于线性模型的输入。该网络中的以下几层类似于DeepCE模型中的预测网络组件,它是一个具有ReLU激活函数的两层前馈神经网络。

kNN公司

我们还提出了一种基于kNN的新化学环境下基因表达预测方法。具体地,通过对同一设置中的训练集中的新化合物的最近邻域的基因表达谱求平均来生成在一特定设置(即,细胞系、化学剂量)中的新化合物的基因表达谱。在我们的研究中,我们实验了从1到15的不同邻域数和不同的相似性度量,包括余弦、相关、Jaccard和Tanimoto,以及欧氏距离。

张量列车重量优化

张量序列权重优化(TT-WOPT)是一种张量完成方法,旨在从现有的张量数据中提取缺失值。它已被证明是预测L1000数据集缺失值的有效方法,L1000数据集可以表示为张量结构对象,而无需使用额外的信息24。在我们的研究中,我们进行了实验比较TT-WOPT与我们提出的模型,特别是在从头化学设置。由于该模型不需要额外的信息,因此输入是以张量表示的L1000基因表达值。

数据扩充

从补充图1可以看出,L1000中只有少量的实验是可靠的(平均皮尔逊相关(APC)得分 ≥ 0.7),因此如果我们不能从大量不可靠的实验中利用有用的信息,将是浪费。我们在表1中显示,简单地向高质量的训练集(原始训练集)添加不可靠的实验会使我们的模型的性能变差。因此,我们提出了一种数据扩充方法,通过这种方法我们可以有效地利用不可靠的实验来提高我们模型的性能。我们认为,虽然一个实验(5级数据)是不可靠的,但并不是所有的生物复制实验(4级数据)都是不可靠的,我们将通过我们提出的数据扩充方法提取这些可靠的生物复制实验。其基本思想是,我们首先在高质量的训练集上训练我们的模型,然后为不可靠的实验生成预测的基因表达谱。将这些预测的基因表达谱与它们的生物复制基因表达谱进行比较,并且我们合并了与它们的预测基因表达谱的相似性分数大于阈值的生物复制基因表达谱。补充算法2详细介绍了这种数据扩充方法。在我们的设置中,相似性得分是皮尔逊相关。

表1用不同训练集训练的普通神经网络、kNN、具有不同化学特征的线性模型、TTWOPT和DeepCE及其简单变体的测试集的性能


绩效评估

实验中采用皮尔逊相关系数作为评价模型性能的主要指标。在微阵列数据分析中,测量基本真值和预测基因表达谱之间关系的相关分数已被证明比误差测量更有效36,37。此外,利用Pearson相关,我们可以对我们的模型进行无偏评估,这些模型是针对MSE优化的。我们计算数据集的平均皮尔逊相关性如下:

r=\frac{1}{N}\mathop{\sum }\nolimits_{i = 1}^{N}\frac{\mathop{\sum }\nolimits_{j = 1}^{M}({z}_{i,j}-{\bar{z}}_{i})({y}_{i,j}-{\bar{y}}_{i})}{\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{\bar{z}}_{i})}^{2}}\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({y}_{i,j}-{\bar{y}}_{i})}^{2}}}

其中{z}_{i,j},{y}_{i,j},{\bar{z}}_{i},{\bar{y}}_{i}分别是第i个基因表达谱中第j个基因的基本真值和预测基因表达值,以及第i个基因表达谱的基本真值和预测平均值。

除了Pearson相关外,我们还报告了其他指标的模型性能,包括均方根误差(r.m.s.e.)、基因集富集分析(GSEA)38、39和39精度@k。虽然皮尔逊相关和r.m.s.e.捕获了所有L1000基因之间的变异,GSEA和P@k公司(包括正面和负面)P@k公司)只关注最重要的上调和下调基因。因此,使用多个度量标准可以从不同方面衡量模型的性能。这些额外指标的详情见补充说明3。

此外,我们使用受试者操作特性曲线(AUC)下的面积来验证这些预测轮廓对于下游二分类任务(包括药物靶点和ATC代码预测)的有效性。

结果和讨论

下面的结果和讨论主要基于Pearson相关;我们还通过其他指标观察到相同的模式。

在新的化学环境中,DeepCE大大优于基线模型

在这个实验中,我们比较了DeepCE和它的简单变体,这些变体是通过去除整个相互作用成分或仅仅是其中的一部分(即化学亚结构-基因或基因-基因特征关联模块)来构建的,包括一个香草神经网络、kNN、线性模型和TT-WOPT。虽然TT-WOPT仅根据基因表达值预测产量,但其他模型则学习实验信息与基因表达谱之间的关系进行预测。对于DeepCE,我们使用神经指纹,而对于其他模型,我们使用预定义的指纹,包括PubChem和circular(ECFP6)指纹,以及药物靶点信息,包括潜在靶点相互作用谱(LTIP)40和我们提出的药物靶点特征来表示化学品。所有模型都在高质量的训练集上进行训练,并在测试集上进行评估。

如表1所示,DeepCE模型及其变体比基线模型实现了数量级的改进。特别是,通过在测试集上实现0.4907的皮尔逊相关(配对t检验,P值 < 4.63 × 10−15),DeepCE模型大大优于其他模型,包括香草神经网络、kNN、线性模型和TT-WOPT。与去除了相互作用成分的简单变体相比,DeepCE也获得了更好的性能,表明化学亚结构-基因和基因-基因特征关联建模的有效性。具体而言,当去除化学亚结构-基因特征关联部分(Deep-CE-药物-基因attn)、基因-基因特征关联部分(Deep-CE-基因-基因attn)和整个相互作用成分(Deep-CE-基因attn)时,DeepCE的性能降低到0.4620、0.4477和0.4418(配对t检验,P值 < 2.25 × 10−5)。我们还通过观察细胞系、化学剂量和L1000基因来深入研究DeepCE的性能。该分析的结果显示在补充图中。2和3。对于基线模型,vanilla神经网络和kNN取得了较好的性能。线性模型包括线性回归,套索和岭回归不能很好地解决我们的问题。这表明线性关系不足以对数据集中变量之间的依赖关系进行建模。TT-WOPT,正如预期的那样,不利用基因表达值以外的其他特征来进行预测,在从头化学环境中不起作用。特别是,它实现了0.0144的皮尔逊相关,这类似于随机性。我们还通过对高质量数据集进行交叉验证,对这些性能进行了误差估计。结果见补充表5。

在插补设置方面,DeepCE优于最先进的方法

我们进一步研究了DeepCE在传统插补设置下的性能,该设置不要求测试集中的化学物质与训练集中的化学物质不同,并将其与TT-WOPT进行了比较,结果表明,TT-WOPT对该设置是有效的。为此,我们将高质量的数据集随机拆分为新的训练集、开发集和测试集,并在这些集上进行实验。请注意,此时,我们按基因表达谱(而不是化合物)拆分数据集。插补设置的培训、开发和测试集详情见补充表3。

对于传统的插补设置,我们观察到DeepCE比TT-WOPT有很大的优势。特别是,对于TT-WOPT,DeepCE的Pearson相关系数为0.7010对0.5113。这一结果表明,通过有效利用化学和生物对象(包括化合物和基因)的特征,DeepCE在从头化学和传统插补设置中始终取得最佳性能。

化学相似性对预测性能有影响

为了深入研究我们模型的预测性能,我们探讨了测试集和训练集之间化学相似性的影响。特别地,我们计算测试集中的一个实验和训练集中的最近邻实验之间的距离,这些实验是由同一细胞系上最相似的化学物质(通过比较它们的指纹和测试集中的实验所诱导的化学化合物的指纹来确定)诱导的。两个实验之间的距离是两种化学物质PubChem指纹的Tanimoto系数,测试集中的实验与其训练集中的最近邻实验之间的距离是该实验与其每个最近邻实验之间距离的平均值。在计算测试集中所有实验到训练集的距离后,我们按升序排序并比较这些实验的Pearson相关分数。我们计算测试集中所有实验的平均皮尔逊相关分数,这些实验到训练集的距离小于排序列表的第一个四分位数(Q1),从Q1到第二个四分位数(Q2),从Q2到第三个四分位数(Q3),并且大于Q3。图3显示了三个模型(包括DeepCE、vanilla神经网络和kNN)在这些距离上的平均Pearson相关分数;我们可以看到,当测试集中的实验与训练集中的最近邻实验更相似时,所有模型的预测性能都更高。我们还认识到,对于所有距离类别,DeepCE都比vanilla神经网络和kNN具有更好的性能,特别是对于距离训练集小于Q1的实验。

在训练集和测试集中,不同化学品之间距离的DeepCE、vanilla神经网络和kNN的性能。d是由Tanimoto系数在训练集和测试集中测量的化合物之间的距离,Q1、Q2和Q3是距离排序列表的第一、第二和第三个四分位数。

数据质量对预测性能有重要影响

除了稀疏性问题外,L1000数据集还包含许多不可靠的基因表达谱。为了研究噪声对我们模型预测性能的影响,我们在不同的训练集上训练了两个基线模型(包括神经网络和kNN),这些训练集是通过过滤不可靠的基因表达谱而产生的,不同的APC阈值从–1(原始训练集)到0.7(高质量训练集)。PubChem指纹图谱是本实验所用的化学特征。

如图4所示,所有模型具有相同的模式。从阈值0.1开始,当阈值较高时,它们在测试集上获得更好的性能,最佳设置是在高质量的训练集上训练我们的模型(即,vanilla神经网络的Pearson相关系数为0.3923,kNN的Pearson相关系数为0.3903)。对于在阈值<0.1的原始训练集和过滤不可靠实验生成的其他训练集上的训练,地面真值和预测的基因表达谱是不相关的,显示了模型预测的随机性。这些结果表明,不可靠数据对预测性能有严重的负面影响,从数据集中去除这部分数据是获得良好性能的必要条件。

香草神经网络和kNN在不同APC阈值设置下的皮尔逊相关分数。这些模型在不同APC阈值下过滤不可靠实验生成的训练集上进行训练,然后在高质量的测试集上进行评估。

一种新的数据扩充方法提高了模型的性能

我们提出了数据扩充方法(在补充算法2中详细描述)来有效地利用来自不可靠基因表达谱的有用信息。在这个实验中,我们评估了这种方法对我们的模型的影响。特别地,使用高质量训练集上训练的DeepCE生成基因表达谱,选择生物复制谱的阈值为0.5,这与DeepCE的性能相似。此扩充训练集的统计数据如补充表1所示。

在增广训练集上训练vanilla神经网络、kNN和DeepCE的实验结果如表1所示。我们可以看到,在大多数情况下,在这个增广训练集上训练的所有模型的性能都得到了提高。例如,DeepCE的Pearson相关系数从0.4907增加到0.5014(配对t检验,P值<0.05)。这些结果表明,从不可靠的基因表达谱中提取的信息对基因表达预测是有效的。

化学特征的选择影响模型的性能

在这个实验中,我们研究了几种化学特征表示对我们模型的有效性。本实验中使用的模型是一个用于PubChem的香草神经网络、ECFP指纹、我们提出的药物靶点特征和LTIP,以及用于神经指纹的没有交互成分的DeepCE模型。这些模型是在高质量的训练集上训练的。我们还通过从离散均匀分布生成大小类似于PubChem指纹的随机二元向量来创建随机化学特征。

表1显示了这些模型在不同化学特征表示下的皮尔逊相关性能。首先,化学特征比随机特征具有更好的性能,这表明化学特征捕获了有关化学物质的重要信息,有助于预测基因表达谱。第二,使用神经指纹的DeepCE获得了0.4418的Pearson相关性,这是与其他设置(配对t检验,P值 < 4.89 × 10−5)相比的最佳性能。对于其他化学特征,基于生物的特征(包括药物靶点特征和LTIP)比基于化学的特征(包括PubChem和ECFP指纹)的性能稍好。所有这些观察结果均通过配对t检验进行验证,P值<0.01。事实上,大多数P值远小于0.01。

我们还进行了消融研究,通过从特征向量中去除其他特征(即细胞系、剂量)来研究它们对预测性能的影响。补充表6中的结果表明,删除这些特征会降低DeepCE的性能,最坏的情况是删除细胞系和剂量信息。

DeepCE在预测下游任务方面是有效的

在本节中,我们设计了一个实验来回答这样一个问题:这些预测的基因表达谱是否能够为下游预测任务提供附加值,特别是在L1000数据集中的原始基因表达谱不可靠的情况下。我们首先提取在L1000(原始特征集)中没有可靠实验的化学品的基因表达谱,并使用在高质量训练集上训练的DeepCE模型生成这些药物的基因表达谱(预测特征集)。然后,我们使用这些集合作为药物的特征来训练两个任务的分类模型:ATC编码和药物靶点预测。这些数据集的构造细节见补充说明1和补充表7。最后,我们训练了四种流行的分类模型,包括logistic回归、支持向量机、kNN和决策树,使用14种不同版本的化学特征(每个原始特征集和预测特征集有7种细胞特异性特征),用于14个二元分类任务(即,10个ATC代码和4个毒品目标)。对于每个实验设置,我们使用交叉验证并报告平均结果。

COVID-19的药物再利用

为了进一步证明DeepCE的价值,我们使用化学诱导的基因表达谱来发现治疗COVID-19的潜在药物。由于COVID-19患者的疾病状态和症状因年龄、性别、基础条件等因素的不同而显著不同,因此我们在两种情况下评估了COVID-19任务的药物再利用,包括人群(患者组)和个体(患者个体)分析。特别是,我们首先在L1000数据集的高质量部分使用经过训练的DeepCE生成Drugbank数据库中所有11179种药物在最大化学剂量下的预测基因表达谱。对于患者基因表达谱,我们使用来自NGDC和NCBI的SARS-COV-2基因表达数据集,分别计算基于人群和个体的患者的差异基因表达谱。具体来说,DESeq2软件包用于从8个SARS-CoV-2患者和12个健康样本(基于人群)以及从1个SARS-CoV-2患者和2个健康样本(基于个体)生成患者档案。然后,我们通过计算Spearman的基因表达谱与患者基因表达谱之间的秩序相关得分,在Drugbank中筛选药物,并选择得分最负的药物作为潜在药物。在这里,我们将A549的基因表达谱与高质量数据集中的主要七个细胞系相邻的癌肺组织结合起来。除了预测的基因表达谱外,我们还包括从L1000数据集的高质量部分提取的基因表达谱。对于每个细胞系,我们提取与患者资料负相关得分最高的前100种药物作为潜在药物。最后,作为筛选过程的结果,我们输出了在所有细胞系中都有可能进行COVID-19治疗的药物。

表2用于COVID-19治疗的潜在药物的化学结构、现状和已知用途(即,当通过Spearman相关性将其细胞特异性预测基因表达谱与基于polulation的患者谱进行比较时,出现在所有8个细胞系的前100个药物列表中的药物)。实验药物和研究药物分别是处于临床前或动物试验阶段和人体临床试验阶段的药物

基于人群和个体的药物再利用结果分别如表2和扩展数据图2所示。COVID-19诱导的急性呼吸衰竭被认为与病毒的直接致病性和宿主炎症反应的失调有关。如表2所示,在我们确定用于人群分析的十种药物中,三种是用于丙型肝炎治疗的抗病毒药物,两种是免疫抑制剂。特别是,挥发性物质通道蛋白和环孢霉素是免疫抑制剂和钙调神经磷酸酶抑制剂,具有相似的结构。环孢霉素已被用于预防器官排斥反应和治疗T细胞相关的自身免疫性疾病,并在预防COVID-1941,42,43,44引起的炎症反应失控、SARS-CoV-2复制和急性肺损伤等方面显示出潜在的作用。钙调神经磷酸酶抑制剂也被证明是有希望的治疗严重COVID-19病例45,46。Alisporivir是环孢素的一种非免疫抑制类似物,具有强的亲环素抑制特性,在Vero E6细胞中被证明能有效减少SARS-CoV-2 RNA的产生47。此外,缬沙坦可抑制影响免疫抑制剂转运的P-糖蛋白,头孢泊泊龙可用于医院和社区获得性肺炎48。

对于基于个体的分析,在我们确定的15种药物中(扩展数据图2),9种是抗病毒药物,其中7种作为NS5A抑制剂用于治疗丙型肝炎。它们与基于人群的分析确定的排名靠前的药物相似。特别是来自丙型肝炎治疗的两种药物(elbasvir和velpatasvir)通过使用其他方法49、50、51被证明是COVID-19治疗的潜在候选药物。此外,两种药物具有抗炎或免疫调节功能,并有可能在COVID-19感染下调节免疫应答。拉尼基达能抑制P-糖蛋白1的功能,影响免疫抑制剂的转运。基于个体的分析也能识别具有相似作用模式的药物。AMG-487靶向趋化因子受体CXCR3,CXCR3可调节白细胞的转运。值得注意的是,这里的所有潜在药物在L1000数据集中都不可用,这表明在基于人群和基于个体的情况下,DeepCE对于表型复合物筛选的有效性。

结论

深度学习在药物发现中引起了极大的关注。过去和现有的努力主要集中于加速针对单一靶点的化合物筛选52。然而,这样一种单药一基因的模式在追踪复杂疾病方面被证明不太成功。一种系统的化合物筛选方法,既考虑到生物系统的信息,又使用化学诱导的系统反应作为读数,将为发现安全有效的生物系统治疗方法提供新的机会。在这项研究中,我们提出了DeepCE,一个新的和强大的神经网络为基础的模型预测化学诱导基因表达谱从化学和生物对象,特别是在从头化学设置。与其他模型相比,我们的模型在预测基因表达谱方面取得了最新的成果,不仅在从头化学环境中,而且在传统环境中。此外,我们还针对L1000的不可靠测量问题,引入了数据增强方法,有效地利用不可靠基因表达谱中的有用信息,提高了模型的预测性能。此外,下游预测任务评估表明,在L1000中,用DeepCE生成的基因表达谱训练分类模型比用不可靠的基因表达谱训练分类模型取得更好的性能,表明DeepCE对下游预测的附加值。最后,DeepCE通过对DrugBank中所有化合物进行电子筛选,针对COVID-19患者的临床表型(即,将DeepCE产生的化学诱导基因表达谱与患者谱进行比较),证明了DeepCE在寻找COVID-19治疗方法这一挑战和紧迫问题上的有效性。总之,DeepCE可能是一个强大的基于表型的化合物筛选工具。

数据可用性

基于贝叶斯的峰值反褶积LINCS L1000数据集可在https://github.com/njpipeorgan/L1000-bayesian。我们研究中使用的训练、开发和测试基因表达集,DrugBank中所有药物的基因表达谱从DeepCE生成,可在https://github.com/pth1993/DeepCE。

Code availability

DeepCE source code and its usage instructions are available in Github (https://github.com/pth1993/DeepCE) and Zenodo (https://doi.org/10.5281/zenodo.3978774).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容