从限定词开始 - 词性识别在人工智能自然语言处理中的不足与改进

词性识别在人工智能的自然语言处理领域具有极其重要的意义,可以说是更深层次分析和处理的主要基础。

* 自然语言处理:指的是在计算机和人工智能领域中,利用电脑或人工智能神经网络来对人类语言进行理解、分析和其他进一步处理的一门科学。

一般来说,对于一篇文章、一段文字,人工智能系统对它进行分析的过程从分句、分词开始,之后就是词性分析了,这一步在英文中称作Part of Speech(简称POS),然后才能进一步做专有名词或短语分析(NER)、句子成分分析、分句从句分析、情感分析、主旨提取、关键词提取等更高级的分析处理。可想而知,如果词性分析的结果不准确,对于后面的各个步骤都会造成极大的困难。

目前主流的自然语言处理框架或系统,大都还存在着一些不足,以至于在词性分析这么基础的步骤上还不能做到很准确,并且可能是为了尽量贴近于人类对语言的一般理解,因此还存在一些理论上的硬伤,对于电脑或者神经网络来处理还存在不妥之处,我们下面将看看其中的一些问题。另外,我们也要看到,自然语言处理作为一门已经发展了很久的计算机科学,加上最近这些年来的人工智能大潮的推动,还是取得了很大的进展的,在一些方面上,比我们日常语言教学中的理论体系还是做出了一些有益的改进的,我们也将做一些讨论。

由于在语言分析中,英语适用范围较广,在自然语言处理中比较典型,相对也比较容易一些,因此我们在这里举例也将以英语为主。本文就从比较有特色的“限定词”来说起。

关于限定词(determiner)

在我国的英语教育体系中,“限定词”这个概念提的很少,而是经常与形容词的概念相混淆,而实际上这个限定词的词性划分非常重要,与形容词存在明显的不同,对于人工智能的语义分析也有很大的指导意义。

简单地理解,限定词是指给它所修饰的名词指定一个“范围”的词,这与形容词是给出名词的一些特性、特点、特征有本质上的不同,例如: red apples 指的是这些苹果的颜色是红的,红色是苹果自身的特征属性,因此 red 是形容词;而 many apples 中的 many,是指“很多”而不是一个苹果,“很多”这个概念与苹果本身无关,仅是表示它们的数量,因此 many 应该是限定词。

将限定词和形容词区分开来,在人工智能分析句法和语义时有着相当重要的意义,例如,many red apples中,是“限定词+形容词+名词”的结构,限定词一般是需要放在形容词之前的,而如果是两个形容词很多情况下是可以调换顺序的,限定词+形容词就不行,这对人工智能做一些语法和语义推断时具有指导意义。

但是我们在大多数可以接触到的词典中(包括一些主流的在线词典)中,查询 many 这个词给出来的主要还是形容词(adj.)。在大多数教材中,尤其是中小学教材中也仍然依循形容词的说法。

而某些在人工智能领域已经做了一些研究和实践的IT公司,则有所改进,例如下图中

已经给出了det.也就是限定词这个词性。限定词在自然语言处理领域一般记作“DT”或“DET”。(determiner的简写)。

指示代词与限定词

还有一些其他的典型例子,如“this”、“that”这一类在我们教育体系中称之为“指示代词”,如下图所示:

而实际上,代词(Pronoun)的概念所起的作用应该是代替名词的,也就是说是名词性的,而this这种词有时候确实是起修饰作用而非指代作用的。例如:

  This is an apple.

这里的this是代替后面的apple作主语,因此应该是代词,而:

  This apple is red.

这里的this显然是限定词,用来限定本句话中所说的苹果的范围(是“这个”苹果,而不是“那个”或其他苹果)。

有些说法说this这时候是形容词,如上面的截图所示,但我们之前已经说过,形容词是表示名词的一些属性、特定的该物体自有的特征,限定词才是限定名词的范围、数量等非物体自身属性的东西。

而一些人工智能引擎将第一句中的This认为是限定词,这也是不合理的,例如谷歌(Google)公司的自然语言分析引擎是这样分析的:

它把this认为是限定词(用DET来代表),而如下图所示,对于This apple is red. 这句话,它也认为this是限定词。

这种划分方法也不能说是错误,因为解决问题的方法可以不止一种。但是,限定词属于修饰名词的词,代词则是代替名词也就是名词性质的词,这两个性质在人工智能分析句子时显然处理会有所不同,因此如果像谷歌的引擎这样,把this在这两种情况下都认成限定词,会对后续的处理造成不可避免的困扰。第二句中的this是应该作为主语来看待处理的,限定词从其词义上来想,按理说是不应该做名词性的句子成分的(主语属于名词性成分,Noun Phrase)。

冠词与限定词

在我们常见的语法体系中,冠词包括不定冠词(a、an)和定冠词(the),这在自然语言处理体系中,也是划归到限定词范畴的,因为a或an是表示有“一个”后面的名词,the则是表示“指定的”(即说话双方或者作者与读者之间由于上下文都知道的某个东西)后面的名词,其实都是限定范围而不是修饰物体本身,所以也都是限定词。冠词实际上可以算作限定词中的一个细分子类。

物主代词与限定词

在我们的语法体系中,物主代词也是定义的比较混乱的一类词,国内往往把my、her、your这一类词和mine、hers、yours都称做物主代词。但显然这两类词从本质上不同,前一类词是修饰性的,后面一定有名词,而后一类词则本身就是名词性的,确实是代词,称作物主代词是合理的。我们的解释也能自圆其说,说前一类词是“形容词性的物主代词”,后一类词是“名词性的物主代词”,但这种分法显然有些硬凑的感觉,在计算机处理时也会造成混乱。

实际在自然语言处理中,由于前一类词(my、her、your等)也具备限定词的定义,是指定名词范围的,因此也可以说成是限定词,但一般把它再分配一个细分的词性,就叫做代词所有格(记作PRP$),这样也算一个方法,起码比记作名词性的代词要好。

数量词与限定词

与前面相似,数词和量词也具有限定的作用,例如:

  ten apples 限定了苹果的数量是10个

  a lot of apples 指定了很多的苹果

  some apples 则指定是“一些”苹果

所以数词是限定词中的一种,自然语言处理中一般记作“CD”(即cardinal number,基数词),量词也在英语中地位不是很突出,可以直接算入限定词这一大类中。

  The second apple is green.

这一句中,second是序数词,也属于限定词。

再细说数词的话,实际上也分形容词性的数词和名词性的数词,例如ten apples中的ten是形容词性的,也就是我们所说的限定词,而如果说考试得分的时候,I got a ten. 这里的ten又是名词性的了,表示所得的分数。这里我们一般可以把前一个ten记作CDJ,表示形容词性的数词(也是限定词中的一种),后一个ten记作“CDN”,表示是名词性的数词。

疑问限定词

还有就是在疑问句中或引导从句用的一些限定词,例如:

  Whose apple is red?

这里的whose就是疑问限定词,表示问的是“谁的”苹果,表示范围限定而非苹果本身的特征。疑问限定词一般记作“WDT”,其中的“W”以疑问引导词常见的开头的字母“W”而来。再如:

  Which apple is yours?

这里的which也是疑问限定词。

前位、中位、后位限定词

限定词如果要细分的话,还可以分做前位、中位和后位限定词,它们的区别主要是在同时出现时的顺序排列上。例如下面这个短语:

  all the two red apples

其中,all是前位限定词,the是中位限定词(也是冠词),two是数词,也是后位限定词,这几种词的顺序是不可以变的,例如不能说 the two all red apples。

另外,当然,red这个形容词更不能放在限定词前面,无论是前位、中位还是后位。

最后,要让计算机理解人类的语言,需要从最基础的地方开始把语言中的各个要素明确化、数字化、量化,需要把我们常常理解得模模糊糊的概念清晰化,分清理浊,才能让机器更好地理解与处理,后续我们还将逐步阐述其中的更多知识。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容