自然语言处理的语义建模介绍

摘要:本文主要是简单介绍了自然语言处理( NLP )的语义建模思想。

 在本文中,我将简单介绍自然语言处理(NLP )的语义建模思想。

语义建模(或语义语法)通常与语言建模(或语言语法)相比较,我们现在从二者的定义和对比来理解语义建模。

语言与语义

语义语法和语言语法都定义了理解自然语言句子的形式。语言语法涉及名词、动词等语言范畴。另一方面,语义语法是这样一种语法,它的非终端不是名词或动词等一般结构或语言类别,而是人或公司等语义类别。

语言和语义两种方法在20世纪70年代几乎同时出现。作为计算语言运动的一部分,语言建模一直备受关注,并且是整个自然语言处理开发的基础。

语义建模一开始很受欢迎,但由于技术复杂,很快就失败了。然而,近年来,语义建模经历了复兴,现在它几乎是Google、Cortana、Siri、Alexa等所有商业自然语言处理系统的基础。

理解语义语法和语言语法之间区别的最简单方法是看下面的插图:

在上图中,上下句子相同,但处理方式不同。下面的部分使用传统的语言语法进行分析,其中每个单词都用PoS (语音点)标记,如名词的NN,形容词的JJ,等等。但是,上面的部分使用语义语法进行解析,一个或多个单词形成高级语义类别,如日期或地理,而不是对单个单词进行PoS标记。

这当然是语言方法的高度简化的定义,因为我们忽略了共同参照分析、命名实体解析等。

这种将单个单词组合成高级语义实体的能力被引入来帮助解决困扰早期NLP系统的一个关键问题——语言歧义。

语言歧义

请看下图:

尽管两句的语言特征基本相同,但语义却完全不同。仅仅用语言语法来解决这种歧义将需要非常复杂的语境分析——如果甚至在这种语境可用的时候——而且在许多情况下,根本不可能确定地做到这一点。

另一方面,语义语法允许以简单和完全确定的方式清楚地解决这种歧义。使用构造得当的语义语法,Friday和Alexy这两个词将属于不同的类别,因此不会导致含义混乱。

请注意,这些词除了具有相同的PoS标签之外,还具有不同的“命名实体”分辨率。然而,在更复杂的现实生活中,名为实体解析的例子被证明远没有那么有效。

语义语法实例

让我们来看一下语义语法的简单定义。

不管配置的具体语法如何,语法通常被定义为语义实体的集合,其中每个实体至少具有一个名称和同义词列表,通过这些名称和列表可以识别该实体。

例如,以下是网站和用户实体及其同义词的简单定义:

根据这种语法,以下句子将全部分解成相同的两个语义实体:

1.Website user

  2.HTTP address online user

  3.Website online user 

  4.<WEBSITE><USER>

语义实体序列可以进一步绑定到用户定义的意图,以便最终采取行动。这种用户定义意图的集合通常构成完整的NLP流水线。

当然,现实生活中的系统支持更复杂的语法定义。同义词的定义有很多不同的方式,因为同义词本身有很多不同的类型;语义实体可以有数据类型,并且可以被组织成分层组来帮助短期记忆处理——不幸的是,所有这些都超出了这个博客所涉及的范围。你可以在这里找到这种语法支持的一个例子。

决定论与概率论

我们强调了上述语义语法方法的确定性。尽管语言和语义语法应用的具体实现可以是确定性的和概率性的,但是语义语法几乎总是导致确定性处理。

原因在于语义语法本身的性质,它基于简单的同义词匹配。正确定义的语义语法允许对语义实体进行完全确定性的搜索。根本没有“猜测”——语义实体要么被毫不含糊地找到,要么没有。

由此产生的语义语法决定论是一个惊人的品质。虽然概率方法可以在许多众所周知的场景中工作,如情感分析、支持聊天机器人或文档理解,但它根本不适合NLP / NLU驱动的业务数据报告和分析。例如,Twitter的反馈是85 %还是86 %是正面的并不重要,只要它朝着正确的方向发展。然而,另一方面,报告销售数字必须准确无误,必须与会计系统的数据精确匹配。即使像“你上一季度的总销售额是1亿美元,概率是97%”这样的高概率结果在任何情况下都是毫无价值的。

尽管语义语法有很多好处,但有一个明显的限制阻碍了它的发展(至少最初是这样),即它只能应用于狭窄的数据域。

通用与特定领域

尽管语言语法对所有数据域都是通用的(因为它处理动词和名词等通用语言结构),但语义语法及其基于同义词的匹配仅限于特定的、通常非常狭窄的数据域。原因在于,为了创建语义模型,需要拿出一个所有实体的详尽集合,最令人畏惧的是,所有同义词的集合。

对于一个特定的数据域来说,这是一项可管理的任务,并且在很大程度上得益于复杂的现实系统。对于一般的NLU来说,它和一般的人工智能( AGI )一样,语义建模根本不起作用。

在过去的十年中,有很多研究致力于推进具有闭环人类管理和监督式自学习能力的语义建模,但事实上,语义建模在处理特定的、定义良好的和可理解的数据域时应用得最好。

有趣的是,流行的NLP / NLU深度学习( DL )方法对于特定的数据域几乎没有足够好的效果。这是因为缺乏DL模型训练所需的足够大的预先存在的训练集。这就是传统的闭环人类管理和自学ML算法在语义建模系统中盛行的原因。

监督式自主学习

人类管理(或人类切换)和监督式自学习算法是两种相互关联的技术,有助于在开发新语义模型时,减少为语义实体提供详尽同义词集的问题。

这两项工作如下。首先创建语义模型,其中包含语义实体的基本同义词集,这可以相当快地完成。一旦使用此模型的NLP / NLU应用程序开始操作此模型无法自动“理解”的用户语句,将进入固化。在人类管理中,用户句子将被修改以适应模型,并且自学习算法将“学习”该修改,并且下次将自动执行该修改,而不需要人工切换。

在此过程中有两个关键属性: 

1、 人类活动改变了用户输入,以适应现有的语义模型,也就是说,改变了用户句子,使其可以自动回答。通常,它包括纠正拼写错误、口语化、俚语、删除停止词或添加缺少的上下文。

2、 用户句子中的这种变化(即固化)被输入到自学习算法中,以便将来“记住”。因为这种改变最初是由一个人执行的,这个人使这种自学习成为一个有监督的过程,并消除了累积学习错误的引入。

在所有这些中,重要的是监督允许在语义建模“进一步学习”时保持语义建模的确定性。语义模型通过监控和有监督的自我学习,在每次监控中学习更多,最终可以比开始时学到更多的知识。因此,这个模型可以从小处开始,通过人的交互来学习——这个过程和许多现代人工智能应用程序没有什么不同。

本文作者:【方向】

作者:阿里云云栖社区

链接:https://www.jianshu.com/p/a69aff04c3fd

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容