1.2 语言学
我们已经了解了自然语言是什么,语言是如何学习和使用的,以及语言习得的起源。事实上,语言学家正是研究和学习与语言相关的研究人员或学者。严格讲,语言学的是对语言的科学研究,包括语言的形式和语法,语言使用时所描述的意义和语义,以及使用的语境。语言学的起源可以追溯到公元前4世纪,当时的印度学者和语言学家Panini将梵语描述进行规范。语言学一词最早是在1847年被定义为对语言的科学研究,在此之前,语音学一词表示的也是同样的意思。虽然文本分析不需要对语言学进行详尽的探索,但需要了解语言学的不同领域的应用,因为其中一些领域在自然语言处理和文本分析算法中得到了广泛的应用。下面来看语言学的主要究领域。
•语音学(Phonetics):语音学是研究人类声道在讲话时所发出的声音的声学特性。包括它们是如何产生的,以及人类是如何感知的,等声学特征。人类语言中最小的单位称之为音素,它通常是与特定的语言相关,而不是一个如电话这种通用的术语定义。
•音系学(Phonology):这是一门研究人脑解析声音模式的学科,用于区分不同的音素。详细包括音素的结构、组合和演绎等,音系学通常要考虑到某种特定的语言。英语由大约45个音素组成。音系学通常不只是研究音素,还包括重音、声调和音节结构。
•句法(Syntax):通常是对句子、短语、单词及其结构的研究,包括研究单词在语法上是如何组合成短语和句子的。短语或句子中单词的顺序非常重要,因为顺序可以完全改变句子的意思。
•语义(Semantics):对语言含义的研究,可进一步细分为词汇语义和成分语义。
词汇语义(Lexical semantics):使用形态学和语法研究单词和符号的含义。
成分语义(Compositional semantics):研究单词之间的关系和单词的组合,理解短语和句子的含义以及它们之间的关系。
形态学(Morphology):根据其定义,语素是具有独特含义的最小语言单位,包括单词、前缀、后缀等等,它们都有自己独特的含义。形态学是研究语言中这些独特的单位或语素的结构和含义。有特定的规则和语法来控制语素的组合方式。
词汇(Lexicon):是一门研究语言所使用的单词和短语的特性以及它们是如何构建语言词汇的学科。包括什么类型的声音与单词的含义相关联,以及单词所属的词类和词形形式。
语用学(Pragmatics):研究语言和非语言因素,如语境和情景,是如何影响话语所表达的含义。包括尝试在交谈中推论是否有隐藏或间接的含义。
语篇分析(Discourse analysis):以句子的形式分析人与人交谈时相互之间的语言或信息交流。这些对话可以被说,写,甚至是标记(sign)。
文体学(Stylistics):是一门以写作风格为重点的语言研究,包括语调、重音、对话、语法和语音类型。
符号学(Semiotics):研究标记、符号和标记过程,以及它们如何传达意义的学科。如类比、隐喻和象征之类的研究都包含在这个领域中。
这些都是语言学主要的研究领域,但语言学本身是一个巨大的研究课题,其范围远远大于这里所提到的这些。但是,语言句法和语义是一些最重要的概念,并且常常是构成自然语言处理(NLP)的基础。因此,我们将在下一节中进一步详细地进行介绍。为了便于理解,我们会用一些实际案例来阐明一些概念。可以在我的GitHub库中下载第1章的Jupyter notebook,地址为https://github.com/dipanjans/text-analytics-with-python /tree/master/new-second edition,运行这些示例之前,首先要在Python环境中加载以下依赖。第2章会详细说明如何安装和设置Python和特定框架。