IR_Project1_TASK1——grobid从安装到使用

(其实原先写了一些,但没联网保存,退出后就都没了,所以就鸽了几天才重新开始写)

这学期上王焱老师的信息检索课,老师第一节课劝退的时候甩出了两个大作业,其中一个就是做一个文献检索的网站:

任务要求

第一部要做的是使用grobid将pdf解析成xml。在做的时候遇到了许多问题,网上的相关资料又特别少,所以写这一篇介绍来分享一下做过程中的的各种坑收获。

一、下载安装:

1)下载

官方文档:https://grobid.readthedocs.io/en/latest/Install-Grobid/

左侧找到install ,点击框选部分,可以来到grobid项目的gayhub页面(mac用户用终端直接下载安装)

文档

点击release,进入发行版的下载,根据环境选择win或linux的版本:

gayhub
下载界面

等待下载完成,解压后将得到:core是核心程序,里面有各种api的测试文件,home等下说作用(见javaAPI),gradlew是用来开启服务的文件,至于其他的bin,doc应该都懂蛤,不懂的也不影响后续的使用。

文件目录

2)安装

按官网给的方法,需要进入文件目录,然后gradlew clean install:

官网说明
cd进目录,然后执行

实现的时候将会下一堆的jar包,很慢很慢,对于加快的方法,兴许挂一个V批嗯可能会有用(但我挂的时候没感觉多快)

安装结束后会有一个原谅色的大大的:


安装完成

3)启动服务

按官网的说明,在目录里用命令行输入:gradlew run就可以在本地8070端口启动服务:

官网说明

试试:


运行


出现大大的grobid

接下来在浏览器输入http://localhos:8070就可以在浏览器查看grobid服务:

网页服务

至此,grobid下载安装启动就完成了,接下来介绍下使用:

二、使用

1)网页GUI使用

这是最简单的一种使用方式,这里介绍下它的几种模式:

网页

TEI是最主要的使用方式,我们可以用它来处理pdf文档

PDF是用于处理带标注的PDF文档

Patent用于处理专利相关的文档?(这个官网的介绍有点看不懂,贴在下面,英语好的可以自己看)

官方介绍

在PDF下我们可以选择几种模式:

三种模式

header:处理论文的头部,处理论文从论文名到摘要的内容

fulltext:处理全文档,包括头部和引用

reference:处理论文的引用部分的内容

一般我们使用fulltext,因为它包含其他两个部分的内容,而在这个选项下又有其他选项,就按默认的来:

选项

接下来可以点击select file选择pdf文件,然后点击submint,等待几十秒,就可以在下方看到输出,你也可以将xml文件下载下来:

结果

好了,至此,你就可以把老师给的1000篇文档交给小组的其他成员,一人处理250篇。一个半小时就可以结束

但这种方式无法批量处理文档,怎么办呢?

2)javaAPI的使用

官网细心地给出了两个example,大家闲得无聊的可以下下来看看:

https://github.com/kermitt2/grobid-example

https://github.com/kermitt2/grobid-test-ant

经过我的踩的一个个坑,得出了以下调用方式(以grobid-example为例):

初始化引擎
配置文件
调用
其他函数的使用方式的位置
额外的jar包

但是在我使用的时候,一度陷入了量子状态,一会儿可以一会儿又报错的,而且报错的地方又在十分内部的地方,百度谷歌都找不到解决方法,于是我弃疗了。

3)curl的使用

在我的JAVA程序进入了量子状态后,我把眼睛投向了官网给出的第二种方法:curl,看起来好简单的!curl只需要一行代码诶!

curl的介绍

curl是什么呢?就是在使用命令行来访问网站,win10貌似自带,cd进目录,执行:

win10自带欸
 命令行使用curl

以上红框部分是cd进目录并执行curl的演示,白框和蓝款是回车后的结果,其中,白框是curl向本地服务器8070端口发送的数据,蓝框是本地服务器返回的结果,包括头部和数据。

这个要怎么批量处理嘞?等等!貌似python有个os库有系统相关的东西,一查,果然——os.popen("cmd命令")可以用于调用cmd,在参数中传入cmd命令,接受cmd的结果

那我们就用python大法处理pdf文件吧,如下图,再写个保存和for循环就可以了,美滋滋啊!

代码及运行

但在处理的时候发现一些文档会有编码问题:

编码问题

这是为什么呢?百度后得知win10中国区的cmd默认编码是gbk,而当文档中出现其他gbk外的西文字符时,将出现这个问题,知道问题所在后,我用修改注册表的方式修改了cmd的编码方式,但这时候又出现了没有被服务器拒绝的问题:

为什么要拒绝我嘞!!!

找了半天找不到解决方法,但在寻找的过程中,我发现了curl貌似是个比较过时的东西,现在大家用的都是

貌似是urllib和request了,啥?urllib?request?老朋友啊!!

4)webAPI调用

python大法好

python大法好

python大法好

官方文档给出了api的使用方法:

P!


P2

所以我们知道可以向http://localhost:8070/api/processFulltextDocument用post方法将文档发送过去,然后得到xml的response,在post的数据端中有一个必填的input,值为文档二进制内容,选填的我们可以不管:

核心代码

图源:手动截图

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容