通过NLTK.tree对stanford nlp parser结果解析

项目需求

将stanford nlp parser结果可视化为tree,然后对tree进行解析,得到每个叶子结点的全路径。

1.stanford nlp parser

结果是str,通过nltk.tree.Tree的fromstring()将str转化为nltk.tree.Tree。

2.nltk.tree.Tree

有很多函数可以使用,API查看:http://www.nltk.org/_modules/nltk/tree.html

例如draw()可以将树可视化,label()是该树(当前树木,并不只是原树)的跟结点的值,len(tree)可以得到这棵树的孩子个数(例如二叉树,那孩子个数最多是2)。

3.关于树的遍历

接下来说说我们通常自定义的tree和nltk.tree.Tree不同之处

1.关于左右孩子的访问。

我们传统意义上定义的树有左右孩子结点,如下:

关于tree的定义

这样我们在访问的时候就很简单,用node.left和node.right即可,但怎耐我们要用nltk定义的tree结构啊,所以我们必须研究nltk.tree.Tree是怎么用左右孩子的。所以其实逻辑都一样,主要是把一些对应的函数给换了,但在这里我就卡了四五个小时。

nltk.tree.Tree数据结构中没有left_child和right_child,而tree[0]就代表第一个孩子,tree[1]就代表第二个孩子,但是在使用之前,防止数组越界访问,我们要先用len(tree)来判断孩子个数。

2.关于叶子结点的判断。

在传统意义上的tree访问时,我们通过判断该node同时没有左右结点来认定其是否是叶子结点,判断条件如下:

node.left is None and node.right is None

但是我们nltk.tree.Tree没有左右结点概念,所以我们可以通过两种方式来判断:

其1:type(node)

当type(node)==str时,说明是叶子结点,否则type一定是nltk.tree.Tree,则不是叶子结点。这一点也是研究了好久才发现。例如:

解析树

上图所示,清华这个node的type就是str,print的结果是“清华”。而清华上面那个结点NR的type就是nltk.tree.Tree,print的结果是“NR 清华”,就是说它还是一个子树,而叶子结点就是一个str了。这一点困惑了很久,无奈nltk就是这么定义的。当你不明白这一点时,盲目使用node.label()去得到node的值时,就会报错:

'str' object has no attribute 'label'

2.其实也可以用len(node)来判断孩子个数是否为0,但这种其实是有问题的,因为正如上面所说,当前node是叶子结点时,len(node)得到的是字符串长度,而不是子结点个数。所以还是用第一种方法。

综上,我们给出用stanford nlp解析一段中文,并用nltk可视化,解析,打印其每个叶子结点的全路径的完整代码:(ps:解析树是多叉树,不一定是二叉树,所以用左右结点来定义也不合适。)

# -*- coding: utf-8 -*-

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from stanfordcorenlpimport StanfordCoreNLP

from nltk.treeimport *

def MultiTreePaths(root):

    def helper(root, path, res):

        if type(root)==str:

            res.append(path +str(root))

            return

        l=len(root)

        for I in range(l):

                if len(root)>=i:

                    if root[i]:

                        helper(root[i], path +str(root.label()) +'->', res)

    if root is None:

        return []

    l = []

    helper(root, '', l)

    return l

nlp = StanfordCoreNLP('/Users/wangwenhua/Downloads/stanford-corenlp-full-2018-10-05', lang='zh')

sentence ='清华大学位于北京。'

treestring=nlp.parse(sentence)#依存句法分析

tree=Tree.fromstring(treestring)

r=MultiTreePaths(tree)#打印每个叶子结点的全路径

print(r)

tree.draw()#可视化

格式有点乱,截图如下:

stanford nlp+NLTK+tree

运行结果如下:

解析结果

关于树叶子结点的路径打印,参考代码如下:

树的定义以及二叉遍历叶子结点路径

调用:

调用
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容