1.4 语言句法和结构
我们已经知道了什么是语言的语法和结构。语法和结构通常紧密相连,通过特定的规则、约定和原则指导着单词组合成短语的方式。短语然后组合成从句,从句再组合成句子。在本节中,我们将专门讨论英语的语法和结构,因为本书处理的是英语文本数据。但是,同样的概念也可以扩展到其他语言。了解语言结构和语法的知识对许多领域都很有帮助,比如文本处理、或者进一步的操作所需的注释和解析,这些操作包括文本分类或摘要等。
在英语中,单词组合成其他语言单位,如短语、从句和句子。这些句子成分组合在一起表达某个信息,且这些成分以层次结构相互关联。另外,句子就是将单词按特定的规则(语法)进行结构化组合。举个例子,“The brown fox is quick and he is jumping over the lazy dog”。如下代码是这句话在Python中的实现。
语法和单词的顺序决定了句子的含义,如果我们打乱单词顺序,这个句子还有意义么?
如图1.3所示的这种无须状态的单词,一定很难理解,对不对?
从图1-3中的单词集合中,很难明白想要表达什么。事实上,语言不仅仅是由一堆非结构化的单词的堆砌。语法正确的句子不仅给出正确的结构和单词关联,而且能根据顺序或位置传达正确的意思。利用前面介绍过的句子→子句→短语→单词的层次结构,可以利用浅解析方法构建如图1-4所示的层次结构句子树,浅解析是一种常用于确定句子成分的技术。
从图1-4的层次树中,可以看到“The brown fox is quick and he is jumping over the lazy dog”,这句话具有明确的结构和含义。树的叶节点由单词组成,是最小的单元,单词的组合形成短语,短语又形成从句。从句通过各种填充词或连词连接起来,构成最后一个句子。在下一节中,我们将更详细说明这些句子成分,并学习如何分析,并确定主要的语法类别。