人工智能(Artificial Intelligence – 简称AI)作为21世纪关注度最高的词汇之一,形容计算机学中机器能够模仿人类的认知模式,感知周围环境,像人类一样进行“思考、解决问题”,从而进行反应找出达到目标的最快最佳方案。21世纪以来随着大数据和机器快速发展,Al被广泛运用,从航空、医疗到算法交易,现在AI会不会又为科研开启一个全新的学术检索时代呢?
传统的搜索引擎例如谷歌是在“网上爬行”(web crawling)这种数据采集方式的基础上运用一些算法来提供实时的信息搜索结果。“爬行”就像在蜘蛛网上爬一样,通过一个链接找到下一个链接,理论上来说可以搜索到全网信息,在此期间运用一些“爬行”规则(crawling policy)来过滤掉可能是垃圾的内容。接下来编入索引(indexing)可以把词与爬行到的域名联系在一起,起到存储作用,存入公共数据库。然后通过用户输入的关键词在检索中找到对应的信息。基于这样的技术,Google Scholar则是特别为学术检索而推出的网络应用,特点为能检索阅读的学术资料极其丰富,提供引用信息,便于用户组合选择的结果排列方式等。
而以AI为基础的新型知识搜索方式正逐渐被开发,比如Yewno,模仿人类大脑的运作方式,相较于使用关键字搜索的谷歌这类传统引擎,它能够通过全文分析、计算机语义分析和机器学习等方法来提炼文献的含义,从而图文并用给使用者提供相关材料。这个系列产品中Yewno for Education已经于去年7月上线,除了教育,公司还开发了其它三个领域:出版行业、金融和生物医学。
另一同样基于AI而设计更为个性化的是由一位剑桥大学博士生创立的Sparrho,其特点在于通过分析理解用户需求,每小时可以将45000份文献分类,选择推送最相关的领域动向给用户,Sparrho在传统的搜索功能上加入了保存分享的功能,同一个科研团体可以利用这个平台同步知识阅读。
类似的还有UNSILO,这个应用也强调对自然语言与意义的处理分析,所以在没有事先设好分类法(taxonomy)的基础下也可以准确提炼文献中的概念。为达到不同行业的搜索需求,UNSILO在与不同信息源(例如学术出版方)合作时也有不同的方案。
除此之外,非盈利组织AI2(Allen Institute of Artificial Intelligence)开发的Semantic Scholar也备受关注。它运用了AI的设计,可以在搜索信息的基础上判断文献的价值,提炼其中数据,它提出使用深度学习模型的方式来根根据论文题目和摘要来为文献综述预测最有价值的引用材料。但2015年上线之初,Semantic Scholar在学科涵盖度和文献数量上远不及谷歌等传统搜索平台。这里值得一提的是Microsoft Academic,它是原有的Microsoft Research与AI2等合作的成果,有些学者对Microsoft这一努力十分看好,认为这集合了AI2深度语言处理的能力与Microsoft极大的数据来源两种优点。
不难看出这些以AI为基础的搜索引擎正走向越来越个人化的设计方向,大多数学者也认为运用这些搜索平台、通过对自然语言的处理会提高精确度、效率,但有人表示应该短时内并无法用它们代替谷歌这一类搜索引擎,因为现有的AI搜索平台中的文献数量与科目范围都不及谷歌。AI2的CEO - Oren Etzioni也说并没有想要和传统搜索引擎激烈竞争,如不少学者所说,不远的将来,他们将取其优点,两者搭配使用。