前提概述
上一章我们讲了一些文本分析中一些基本概念,如果未看过的点击这里,了解一下文本分析涉及到的一些技术和方法。
句子的切分和分词
为了对文本进行分析,我们首先需要把文本切分成一个一个的句子。完成这个功能的软件叫着切分器
(Sentence Detector,也叫Chunker)。然后我们要把句子进行分词,完成该功能的软件叫分词器
(Tokenizer)
词性标注
词性标注(Part-of-Speech Tagger, 简称POS Tagger)软件分析某种语言的文本,然后针对每个词赋予POS标记。比如名词、动词、形容词等。
这里以斯坦福大学开源的POS Tagger(Stanford Log-linear POS Tagger)为例,它使用了条件对数线性模型(Conditional Loglinear Model)
实现词性的标注。这个软件已经为英语训练好了词性标注模型,还提供了阿拉伯语、中文、法语、德语等语言的词性标注模型。
语法树
在自然语言处理中,语法解析器(Parser)接收语句,并且对句子的语法结构进行分析,输出语法解析树(Parser Tree). Parser首先对句子的文本进行分词,然后进行POS标注(POS tagging)。
根据POS标注结果以及句子成分信息,构建句子的语法解析树。
比如句子:I ran into Tom and Jack and then we went shopping. 解析成一棵语法树如下图(其中的NP,VBD,CC,ADVP等表示具体的POS标注):
实现语法树分析的具体技术包括:
- 概率型上下文无关语法分析技术(PCFG - Probabilistic Context-Free Grammar)
- 移位归约语法分析技术(Shift-Reduce Constituency Parser);
- 基于神经网络的语法分析技术(Neural Network Dependency Parser);
以上的这些技术已经非常成熟,都能够获得准确的分析结果。
下一篇: 学习《文本分析》之文本索引和检索