Python文本分析--1自然语言处理基础(四)

1.4 语言句法和结构

我们已经知道了什么是语言的语法和结构。语法和结构通常紧密相连,通过特定的规则、约定和原则指导着单词组合成短语的方式。短语然后组合成从句,从句再组合成句子。在本节中,我们将专门讨论英语的语法和结构,因为本书处理的是英语文本数据。但是,同样的概念也可以扩展到其他语言。了解语言结构和语法的知识对许多领域都很有帮助,比如文本处理、或者进一步的操作所需的注释和解析,这些操作包括文本分类或摘要等。

在英语中,单词组合成其他语言单位,如短语、从句和句子。这些句子成分组合在一起表达某个信息,且这些成分以层次结构相互关联。另外,句子就是将单词按特定的规则(语法)进行结构化组合。举个例子,“The  brown fox is quick and he is jumping over the lazy dog”。如下代码是这句话在Python中的实现。

语法和单词的顺序决定了句子的含义,如果我们打乱单词顺序,这个句子还有意义么?

如图1.3所示的这种无须状态的单词,一定很难理解,对不对?

图1-3 无任何关系或结构的单词集合

从图1-3中的单词集合中,很难明白想要表达什么。事实上,语言不仅仅是由一堆非结构化的单词的堆砌。语法正确的句子不仅给出正确的结构和单词关联,而且能根据顺序或位置传达正确的意思。利用前面介绍过的句子→子句→短语→单词的层次结构,可以利用浅解析方法构建如图1-4所示的层次结构句子树,浅解析是一种常用于确定句子成分的技术。

图1-4 遵循层级句法的结构化句子

从图1-4的层次树中,可以看到“The brown fox is quick and he is jumping over the lazy dog”,这句话具有明确的结构和含义。树的叶节点由单词组成,是最小的单元,单词的组合形成短语,短语又形成从句。从句通过各种填充词或连词连接起来,构成最后一个句子。在下一节中,我们将更详细说明这些句子成分,并学习如何分析,并确定主要的语法类别。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容