汤森路透(Thomson Reuters,图1)于2008年4月17日成立,是由加拿大汤姆森公司(Thomson Corporation)与英国路透集团(Reuters Group)合并组成,总部设在美国纽约。
提起汤森路透,很多人第一反应是这是一家信息和媒体公司, 大多是由于其旗下大名鼎鼎的的路透社所致。汤森路透的业务主要集中在金融、法律、税务、会计、知识产权与科技等领域。对于它在科技领域的影响,可能最著名的就是每年它会搞个论文引用率影响力之类的排行榜了。每年汤森路透都会利用其Web of Knowledge中的数据来分析和预测最有影响力的研究人员,根据其发表的研究成果的总被引频次来预测将来的诺贝尔奖得主。对于目前火热的生物医学信息,你可能会很好奇,这家搞情报和新闻媒体的公司也会提供这方面的情报和分析服务吗?实际上,汤森路透在生物医学大数据方面早已经是一个顶级的玩家。它利用其在情报信息领域的优势,发展出了一套独特而又强大,且种类丰富的信息平台和分析管线。不同的信息产品涵盖了从基因到药物几乎整个下游的信息和分析服务,为客户的研发决策提供情报分析和理论依据。到目前,汤森路透以近乎垄断的地位,已经成为各大制药公司研发中心的主要信息提供商。
汤森路透作为一家媒体和信息服务起家的公司,一不做基础实验,二不给病人看病,却能获得跟各大制药厂商的合作资格,是什么让它在这方面做得如此出色呢?笔者认为这源于它在情报和信息方面的优势。汤森路透将人类已有的知识进行收集和总结,然后反过来应用到科研医疗和制药研发上来。这便是成功地将生物医学界的学术知识应用到工业界开发上的例子,即转化医学的典型代表。以下让我们来看看它是如何成为转化医学大数据的专业玩家和领先者的。
首先笔者认为,一个好的生物信息和大数据公司,必须要做好两点:一是具有专业的大数据基础和平台,这包括有足够多且有效的情报和数据来源,并且能够应对各类数据的采集、整合、标准化以及质量保证。此外还涉及到大数据库平台的架构设计、数据查询和可视化产品的开发等诸多挑战。另外一个便是要有足够完善的数据分析和解决方案。例如经典的数据挖掘,机器学习等算法,并且能够供给客户方便使用(图2)。
对于前者,很多公司采用对跟医院或研究机构合作获得数据,或者直接对用户进行采集完成,如Foundation Medicine公司,23andme公司和苹果公司等等。不同于这些数据来源模式,汤森路透对于各类大数据的收集和累积,一般并不直接从实验或病人身上采集获得。正所谓专业的人做专业的事,汤森路透有其自身独特的优势,它的数据来源于其传统深厚的信息和情报积淀。例如,汤森路透建立了一个极其强大的情报网络和信息来源渠道。除了各类新闻媒体外,它还是各个文献数据库,知识产权局,专利局的合作者。因此它能获得各种文档和情报的第一手资料。这些资料除了各种科技文献,还包括药物报告,临床试验报告,专利报告,新闻报告,会议报告等。当然有了这些原始文档之后还远远不够,还必须把文档中有用的信息提取出来整合到数据库中。这是个比较耗费精力和资源的工作,没有太多的捷径可走。
对于这个挑战汤森路透做了很多有意义的工作。一方面,汤森路透邀请一批专业的有生物和医学背景人士进行文档的研读,比如文献中提到的基因、蛋白、疾病和药物的关系,这批科学家会利用他们的专业的背景判断文献中所表达的含义,比如X药物能治疗Y,基因A能影响基因B的表达等,经过确认后把这些知识录入到数据库,从而保证数据的可靠性。另外一方面,汤森路透也使用自然语言处理技术来从文档中提取信息。如此便可以加速文档知识的录入,从海量的文档中快速提取到大量的有用知识。当然用人工智能处理出来的数据会有其局限性,对于不同的处理方法来源的数据,汤森路透会标注其可靠程度,以供研究者自行选择使用。
汤森路透为什么要通过这种方法建立起这样的大数据库呢?笔者以为,现在的生物医学的研究已经进入一个矛盾和瓶颈状态,虽然现在每30秒钟就有一篇新论文发表,但总体在转化医学和新治疗方法的进展上还是很缓慢,一部分原因是由于很多文章都是集中在某几个基因或某一两个疾病的研究,如此便形成了一个个知识的孤岛,并不能对生物系统的研究构建一个总体画面,以至于一些有效的知识迟迟得不到发现。然而生物体是如此复杂,很多疾病机制和治疗手段实际上不是孤立的,它们之间存在千丝万缕的关系。两个看似毫不相关的东西很可能就通过某种方式联系着,如果发现这种联系,就会产生质的飞跃,为治疗疾病发展新药提供新思路(图3)。例如,若不是某位生物信息分析师不辞辛劳花费大量时间搜索看上去并不相关的海量技术文献,研究人员或许永远不会去测试鱼油能缓解一种循环系统疾病——雷诺综合征的可能性。
可惜并不是每种发现都能够这样的方式去获得。没有一种标准化,集成化的可用知识平台,寻找这些关联就变的像是大海捞针一样困难。但如果能把这些已知的知识碎片全部整合起来,再加以合适的数据挖掘手段,那么寻找隐藏的信息就变得容易许多,这会极大的加速疾病的研究和新药的开发。因此汤森路透所做的这些工作,便是从人类已有的知识库中提取精华知识做成大数据平台,提供一个可供大数据科学家和生物信息科学家尽情发挥的舞台。
如果说前者的数据架构是基础,那后者完善的数据分析和解决方案就是实现手段了,这是数据到知识的关键一环。如同做菜一样,采集到了原材料食材之后,还需要有经典的烹饪方法才能做出美味的菜肴。对于“烹饪”方法的选用,这也是一项有趣的挑战。现在的数据种类是如此繁杂,而每年新发表的科学计算方法又是如此之多,如何根据不同研究目的去选择最有效最合适的方法对这些数据进行挖掘呢?这方面不要忘记汤森路透在文献和情报学中的优势,它当然知道哪些论文被引用最多且影响最大的,甚至通过这些信息还可以预测出未来方法的趋势和热点。联想到它能够根据它的情报来预测未来的诺贝尔奖得主,据此能挑选出经典的挖掘方法也不在话下了。
通过对科技文献影响力的查阅以及它旗下或跟客户的生物信息专家的合作,他们筛选出最为先进和经典的方法纳入分析管线,为客户提供挖掘分析服务。例如,随着组学数据的积累及系统生物学的方法论发展,运用聚类或分类等数据挖掘算法可以在不同组学层面(包括基因组、转录组、蛋白质组、功能基因组等)进行挖掘应用。研究者还可将生物学网络与药物作用网络整合,利用网络拓扑算法分析药物在网络中与节点或网络模块的关系,这使得药物发现由传统的寻找单一靶点转向综合网络分析(图4)。根据此,很多经典的网络拓扑学的算法便引入分析流程中。某些经典算法原先用于分析社交网络和移动互联网络的模式识别,现在被应用于生物医学网络的分析来帮助科学家寻找出有效的转化医学知识。各种交叉学科知识的融合在一块产生新的火花,原来转化信息学还可以这么玩!
汤森路透在大数据分析平台的一个代表产品便是MetaCore。MetaCore上的数据内容均经过专业人员审阅,并集成数据挖掘、系统生物学算法和可视化工具,可用于芯片、代谢、蛋白质组学、siRNA、microRNA和筛选工作的数据进行功能性分析。例如它可提供基因、蛋白、转录本或化合物列表,找出与之相关的重要通路图、网络关系、疾病关系;还可以结合通路图和网络关系,分析高通量筛选试验数据;在同一个通路和网络图上,展示/交叉验证不同类型的分子数据等。图5显示MetaCore一个比较有趣的应用:科学家将试验所得的数据(如基因表达变化)放入到MetaCore中做基因网络和通路的富集测试,并将结果可视化。这样便能非常直观地观察到某组基因是如何相互关联影响的,哪些基因在通路中对其他基因的表达起关键作用,从而帮助科学家们更好的寻找药物靶点。
汤森路透另外几个很有特色的产品是Cortellis和Integrity。Cortellis为汤森路透的药物情报平台。这个平台收录各类药物开发的当前及历史状况,各种信息包括从参与药物发现及开发的公司、专利保护、化学结构、基于靶标的作用机制及在研适应症,乃至到研发阶段、临床前数据及临床试验(包括进行中和已完成的临床试验)等。此类信息非常适合于制药公司负责制定研究战略的高层人员,从这些信息中使用者可以获得药物开发最新动态,发现新的药品开发机遇,据此制定领先对手的商业决策。
如果说Cortellis是为医药工业项目决策者和分析人员定制的药物情报平台,Integrity则是汤森路透的药物研发信息平台,是从科学家的角度为研究人员提供可靠、翔实、整合的药物研发信息平台。平台收录有海量的生物活性的化药和生物药、药理\毒理实验数据、临床实验方案结果、药物靶标信息、专利以及文献会议记录等。Integrity对这些丰富的数据资源做了全面的标引和强大的相互链接功能,科研人员只需要通过一个结构式、一个靶标、一条专利或一个临床试验,就能获得与其相关的所有药物研发信息。此外,汤森路透还提供很多有特色的信息服务产品,在此不一一列出。
信息时代,情报和数据的威力是巨大的。高质量的大数据和分析平台,再加上一群才华横溢的科学家,便可产生如虎添翼的效果,最终产生造福人类的新发现。汤森路透在这方面的工作,为我们在如何玩转转化医学大数据提供了一个非常优秀的例子。在生物医学信息知识爆发的背景下,转化医学大数据的分析正在成为一项越来越有趣的工作。如何利用人类已有的线索,去解开复杂的新知识,这正是大数据科学家所面临的最大挑战。在过去有这么一群科学家--图灵和他的小组利用他们的才华和收集到的情报,破解了德军的密码。而现在这群生物医学信息科学家现在所在做的,便是在利用大数据破解上帝的密码。
作者:朱成博士,现为美国健赞(赛诺菲)公司信息研究科学家,文章所涉内容均代表个人观点。