(其实原先写了一些,但没联网保存,退出后就都没了,所以就鸽了几天才重新开始写)
这学期上王焱老师的信息检索课,老师第一节课劝退的时候甩出了两个大作业,其中一个就是做一个文献检索的网站:
第一部要做的是使用grobid将pdf解析成xml。在做的时候遇到了许多问题,网上的相关资料又特别少,所以写这一篇介绍来分享一下做过程中的的各种坑收获。
一、下载安装:
1)下载
官方文档:https://grobid.readthedocs.io/en/latest/Install-Grobid/
左侧找到install ,点击框选部分,可以来到grobid项目的gayhub页面(mac用户用终端直接下载安装)
点击release,进入发行版的下载,根据环境选择win或linux的版本:
等待下载完成,解压后将得到:core是核心程序,里面有各种api的测试文件,home等下说作用(见javaAPI),gradlew是用来开启服务的文件,至于其他的bin,doc应该都懂蛤,不懂的也不影响后续的使用。
2)安装
按官网给的方法,需要进入文件目录,然后gradlew clean install:
实现的时候将会下一堆的jar包,很慢很慢,对于加快的方法,兴许挂一个V批嗯可能会有用(但我挂的时候没感觉多快)
安装结束后会有一个原谅色的大大的:
3)启动服务
按官网的说明,在目录里用命令行输入:gradlew run就可以在本地8070端口启动服务:
试试:
接下来在浏览器输入http://localhos:8070就可以在浏览器查看grobid服务:
至此,grobid下载安装启动就完成了,接下来介绍下使用:
二、使用
1)网页GUI使用
这是最简单的一种使用方式,这里介绍下它的几种模式:
TEI是最主要的使用方式,我们可以用它来处理pdf文档
PDF是用于处理带标注的PDF文档
Patent用于处理专利相关的文档?(这个官网的介绍有点看不懂,贴在下面,英语好的可以自己看)
在PDF下我们可以选择几种模式:
header:处理论文的头部,处理论文从论文名到摘要的内容
fulltext:处理全文档,包括头部和引用
reference:处理论文的引用部分的内容
一般我们使用fulltext,因为它包含其他两个部分的内容,而在这个选项下又有其他选项,就按默认的来:
接下来可以点击select file选择pdf文件,然后点击submint,等待几十秒,就可以在下方看到输出,你也可以将xml文件下载下来:
好了,至此,你就可以把老师给的1000篇文档交给小组的其他成员,一人处理250篇。一个半小时就可以结束
但这种方式无法批量处理文档,怎么办呢?
2)javaAPI的使用
官网细心地给出了两个example,大家闲得无聊的可以下下来看看:
https://github.com/kermitt2/grobid-example
https://github.com/kermitt2/grobid-test-ant
经过我的踩的一个个坑,得出了以下调用方式(以grobid-example为例):
但是在我使用的时候,一度陷入了量子状态,一会儿可以一会儿又报错的,而且报错的地方又在十分内部的地方,百度谷歌都找不到解决方法,于是我弃疗了。
3)curl的使用
在我的JAVA程序进入了量子状态后,我把眼睛投向了官网给出的第二种方法:curl,看起来好简单的!curl只需要一行代码诶!
curl是什么呢?就是在使用命令行来访问网站,win10貌似自带,cd进目录,执行:
以上红框部分是cd进目录并执行curl的演示,白框和蓝款是回车后的结果,其中,白框是curl向本地服务器8070端口发送的数据,蓝框是本地服务器返回的结果,包括头部和数据。
这个要怎么批量处理嘞?等等!貌似python有个os库有系统相关的东西,一查,果然——os.popen("cmd命令")可以用于调用cmd,在参数中传入cmd命令,接受cmd的结果
那我们就用python大法处理pdf文件吧,如下图,再写个保存和for循环就可以了,美滋滋啊!
但在处理的时候发现一些文档会有编码问题:
这是为什么呢?百度后得知win10中国区的cmd默认编码是gbk,而当文档中出现其他gbk外的西文字符时,将出现这个问题,知道问题所在后,我用修改注册表的方式修改了cmd的编码方式,但这时候又出现了没有被服务器拒绝的问题:
找了半天找不到解决方法,但在寻找的过程中,我发现了curl貌似是个比较过时的东西,现在大家用的都是
貌似是urllib和request了,啥?urllib?request?老朋友啊!!
4)webAPI调用
python大法好
python大法好
python大法好
官方文档给出了api的使用方法:
所以我们知道可以向http://localhost:8070/api/processFulltextDocument用post方法将文档发送过去,然后得到xml的response,在post的数据端中有一个必填的input,值为文档二进制内容,选填的我们可以不管:
图源:手动截图