基因-药物 机器学习预测靶点

Using PharmGKB to train text mining approaches for identifying potential

gene targets for pharmacogenomic studies

利用pharmGKB训练文本挖掘方法识别药物基因组研究的潜在基因靶点

文章

简介

文章是2012年发表于Journal of Biomedical Informatics上,影响因子2点多。通讯和一作都来自于明尼苏达大学药学院。

背景

文本挖掘资料1
文本挖掘资料2
1、个体差异在药物使用上有重要作用。药物反应的某些差异是由于药物的吸收、分布、代谢和排泄(ADME)基因的遗传多态性造成的。ADME基因中的遗传多态性可能导致药物水平的个体间差异,从而导致反应和/或毒性。研究基因与药物反应变异性关系的两种主要方法是全基因组关联研究(GWASs)和pathway驱动方法
2、GWAS的缺点是假阳性高,pathway驱动方法的缺点是需要已知候选基因或者pathway。pharmGKB数据库包含大量文献信息,但无法及时更新。因此需要一个方法去挖掘文献数据库信息,获取候选基因或者pathway。这里的文献数据库选取MEDILNE。
3、目前已有的研究:

  • 文本挖掘和生物医学自然语言处理(NLP)的大量工作致力于从药物基因组学文献中提取有用的信息(Garten Y, Coulet A, Altman R. Recent progress in automatically extracting
    information from the pharmacogenomic literature. Pharmacogenomics 2010;11:1467–89)。
  • Pharmspresso:利用文本处理系统识别从生物医学文章全文中提取的基因和药物之间的药物基因组关系。然后用Pharmspresso提取的药物-基因关系编码在一句话的水平上,自动生成药物-基因相互作用的网络图。最后,Pharmspresso的输出被用于网络分析算法PGxPipeline,该算法利用网络连通性来评分基因调节药物反应的倾向性。
    优点:使用基于Pharmspresso的自动化方法创建的网络与手动管理的pharmgbb数据库创建的网络进行比较,发现大致相当。
    缺点:当独立于pgxpipline评估pharmspeso的性能时,发现Pharmspresso鉴定出5312个药物基因组关系,而pharmgbb包含1782个关系,两个来源1157之间有重叠。
    结论:Pharmspresso是一种相对敏感(召回率为65%)但不具有高度特异性(精确度为22%)的用于提取单个药物-基因关系的工具。(Garten Y, Tatonetti N, Altman R. Improving the prediction of pharmacogenes
    using text derived drug gene relationships. In: Pacific Symposium on
    Biocomputing (PSB). Honolulu, HI; 2010)
  • 利用药物之间的结构相似性以及药物间相互作用的结构化信息来训练自动分类器,以预测可能与感兴趣药物相互作用的最可能的新基因。(Hansen NT, Brunak S, Altman RB. Generating genome-scale candidate gene
    lists for pharmacogenomics. Clin Pharmacol Ther 2009;86:183–9)
  • 依靠文本挖掘和自然语言处理技术从MEDLINE中提取药物-基因关系信息,以构建一个本体论关系网络( Coulet A, Shah NH, Garten Y, Musen M, Altman RB. Using text to build semantic
    networks for pharmacogenomics. J Biomed Inform 2009;43:1009–19)
  • 创新点:
    方法与Pharmspresso的主要区别在于,使用了药物-基因关系的人工整理知识,并将其与包含在PharmGKB中的PubMed摘要联系起来,以摘要文本作为训练特征,PharmGKB定义的关系作为类别信息(相关或不相关),训练了一个完全监督的机器学习分类器。
  • 研究目的:研究MEDLINE摘要中提到的药物和基因是否包含词汇和语义指标,说明药物-基因对之间是否存在功能关系,这些指标可用于识别生物上合理的基因靶点。
  • 研究假设:MEDLINE摘要中围绕药物和基因(词汇上下文)的语言可以预测摘要作为一个整体是否在断言药物和基因之间的某种形式的关系,并且可以在多种药物中推广。

如果上下文确实是可概括的,并且可以用标准的机器学习方法进行建模,那么就可以构建一个工具来定期(或按需)检查MEDLINE摘要,将包含药物-基因对的摘要分类为相关的或不相关的,以便找到可能的基因靶点,为pathway驱动方法药物基因组研究提供建议。

方法

方法预览

1、数据
pharmGKB中的822 药物 and 2247 基因标记为相关或不相关,9317个药物基因对。
2、机器学习

  • 特征提取:利用WEKA数据挖掘包中的支持向量机(SMO)探索在监督学习方法中使用词汇特征来标记药物-基因对是否相关
  • 特征选择:依赖于WEKA的信息增益特征选择方法实现
    3、评估
  • 仅使用PharmGKB数据进行一次性评估;
    所有数据分为822个,分别对应一个药物,821个用于训练,1个用来预测,进行822次。评价指标(敏感性,特异性,阴性,阳性)取822次均值。实际好像由于计算量大,只用了110种药物进行了实验。同时对包含20多个样本的前15个药物组的结果进行了平均。
  • 从MEDLINE中前瞻性提取药物-基因关系,并随后进行人工验证(前瞻性人工评估)
    通过应用一个训练了822个药物块的支持向量机模型对所有可用的2010年MEDLINE Baseline2摘要进行分类,发现至少有一个提到了卡马西平、拉莫夫定或齐多夫定以及药物中包含的2247个基因名中的任何一个。
  • 与现有pharmGKB比较
    选择三种药物,把预测结果和现有pharmGKB进行比较(为啥选这个三种药物,因为作者熟呗)


    与pharmGKB比较

结果

  • 基于pharmGKB的评估
    使用标准的敏感性和特异性以及阳性和阴性预测(PPV/NPV)来评估算法的性能。


    表2

表2总结了PharmGKB数据库中至少有20个实例的前15种药物,以及另外两组的平均值,包括110个用于比较单峰图和双峰图特征提取方法的药物块和全部822种药物的全套样本。
完整结果
表2中110个药物组的随机样本的结果表明,使用单字图训练的分类器比用双图训练的分类器更具特异性(0.69 vs 0.46),后者更敏感(0.96比0.85)。因此,在我们评估的下一步,包括人类对被自动分类器归类为“相关”的潜在基因靶点进行审查,我们考虑到了“相关”类别的流行率,并选择了更具体的单纯形分类器,其PPV为0.91比0.89稍高。

  • 前瞻性人工评估


    表3

    在一组更大的仅与PPV相关的药物-基因对上对自动分类器方法进行了评估,结果如表3所示。对于卡马西平,自动分类器标记为“相关”的基因集与手动管理的PharmGKB数据库中标记为“相关”的基因集之间的重叠包含9个基因名。如表3所示,自动分类器“建议”该药物的54个基因靶点,其中18个被至少一位专家认为相关。
    因此,该分类器有效地“发现”了9个新的相关基因靶点(相对于PharmGKB中包含的信息增加了100%),而错过了PharmGKB中的3个基因靶点。
    对于齐多夫定,PharmGKB仅包含一个“相关”基因靶点,并且该基因也被自动分类器识别为“相关”。然而,分类器建议总共21个目标,其中11个被专家认为是相关的,从而产生了10个新的自动“发现”目标(相对增加1000%)。使用拉米夫定得到的结果稍有不同——PharmGKB包含一个相关基因,由于讨论部分讨论的原因,自动分类器遗漏了该基因。
    然而,自动分类器总共产生了16个新目标,其中6个被专家认为是相关的,因此这6个目标都是PharmGKB中不存在的新的可行目标(相对增加600%)

  • 用作者的方法对发现的基因进行定性评估


    实例结果

    对本研究中研究的两种抗逆转录病毒药物——齐多夫定和拉米夫定进行了定性分析。算法鉴定出9个与齐多夫定有关的基因(ABCG2、ATP7A、CCR5、HFE、TG、SLC28A1和UGT1A7、UGT1A9、UGT2B7)。
    文献注释的手工评价为这些基因在齐多夫定的药代动力学和药效学途径中提供了有力的证据。如图所示为独立于当前研究的齐多夫定的路径驱动分析示例。路径沿线的靶点已被实验证实,最近已提交给PharmGKB。图中的粗箭头表示自动分类方法建议的一些潜在目标。两种方法鉴定的重叠基因包括UGT2B7、SLC28A1和ABCG2。此外,我们的分析还发现了一些新的基因,如HFE、血色素沉着症基因,这些基因与抗逆转录病毒治疗诱导的神经病变有关。人工分析以确定齐多夫定的PK/PD通路候选基因可能会遗漏该基因与药物诱导的不良反应的关联。

讨论

可以预测靶点,可以作为验证,可以为网络分析(如PGxPipeline)提供输入。

缺陷

完全依赖于PharmGKB和MEDLINE作为训练和测试数据的来源。
文献只考虑摘要
缩略词选取

总结

结果表明,使用PharmGKB作为机器学习的训练数据源,以识别药物基因组学中路径驱动方法的可能基因目标是可行的。这种方法可以反复使用,以跟上不断增长的科学文献量,并减轻手动搜索潜在基因靶点的负担。更重要的是,使用该方法,从事路径驱动分析的药物基因组学研究人员也可以识别出使用其他标准搜索方法无法识别的基因靶点。

个人观点

文章较为久远,方法是文本挖掘+svm,只利用利用基因和药物关系,没有考虑其他信息,文献只搜集了一个数据库,且只考虑摘要,验证只选了三种药物,更多时候靠人工判断结果,可信度降低。但是告诉我们:

使用PharmGKB作为机器学习的训练数据源,以识别药物基因组学中路径驱动方法的可能基因目标是可行的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容