这是我在留学期间选修的课程 :natura language process。 这篇文章主要是为了大致的梳理这门课上的知识点,方便日后复习。因此,语言处理的主体对象是English。
语言模型 Language Model (LM)
简单来说,语言模型就是一个对于不同单词出现概率的统计。
然而,对于英语来说,每个单词可能有不同的时态和单复数等形态变化。因此,在做统计前,需要先对原始数据进行预处理和归一化。
常见的文本预处理
- word tokenisation: 这一步是识别一个单词的组成。 例如 URL, 连字符等,这一token不是字母连续的,往往夹杂着标点符号,但仍需作为一个整体来对待。
- text normalization: 因为单词有大小写区分,在实际应用中处理比较麻烦,往往需要统一转化成小写形式。但这一步可能导致的问题是无法正确理解全大写单词的意义。例如US 和us, 前者可以表示美国。对于不同的应用目的,这一步可以考虑对于这类全大写单词normalization时加个tag, 例如: uppercase + us。
- Stopwords removal: is, am ,the 等单词并没有实际的意义,只是为了句子通畅。去除这些单词有助于更好的进行分析。在NLTK中提供了这类单词的列表,同时也可以根据自己的需要增加或减少。
- Lemmatisation and stemming: 英语单词有时态、单复数之分, 如果当前的分析任务不关注这些东西,可以通过lemmatisation或stemming的方式将其还原。这样可以压缩词库的大小。 lemmatisation 是真实意义上的词性还原, 例如将visitors 还原为visitor, 符合人类的习惯,还原后的也是一个单词,但就是处理速度很慢。Stemming则是根据英语的一些后缀规律,简单粗暴地进行还原。例如,visitors会被还原成visit。
具体实现参考 词形还原工具对比 -
sentence segmentation: 这一步是防止在整句处理时出现歧义。 例如 Phd. , U.K. 等单词, 句号并不是一句话的结束,而应该把他们作为一个整体来考虑。
标点是否为句子的结束(end of sentence, EOS)用以下decision tree来判断:
分割句子后,每句话应该作为一个元素单独存储。
n-gram
一般来说,常用的是 unigram, bigram 和trigram, 即以1-3 个词作为一个对象来统计。n 越大, 统计结果也越稀疏。一个七八个词的组合重复出现的概率,显然远低于2-3个词的组合。 另一方面,根据马尔科夫链, 一个单词的出现,可以认为仅跟前一个词有关系,所以也没有太大必要追求过大的n。
n-gram 是一个重要的基础概念, 它所提供的概率分析可以做到很多事情, 例如机器翻译“请给我打电话”:P(“please call me”) > P("please call I ")。 又比如拼写纠正:基于概率, “its 5pm now” → 纠正为 “it's 5pm now”
Evaluation and perplexity
没有比较就没有伤害。 对于语言模型的评估, 也需要有一个比较的对象。因此,要用两种方法建立不同的语言模型(当然也可以对比前人的工作成果)。显然,任意给一个测试用的句子,如果在某一模型中的出现概率都比较大,那么这个模型显然更好。 具体来说, 评估方法有两种:
- Extrinsic evaluation: 直接投放到实际应用环境中测试。
- Intrinsic evaluation: 使用perplexity来评估。
显然第一种效果能提供真实的评估,但是不太现实。因此实际上主要还是用第二种方法来评估语言模型的好坏。
首个单词问题:对于一个基于bigram或trigram的模型,在计算一个句子的perplexity时,前1或2个单词需要不能直接得到,依赖于句子开头的标识符。也即是说,在训练 n-gram 模型时, 对于每个句子,分别在开头和结尾填充n-1个<s>。从而保证在计算perplexity的时候能够正确地从第一个单词开始计算。这也是为什么前面 sentence segmentation 的时候要将句子区别存储的原因。
Smoothing
显然,无论用来生成LM的corpus多么庞大,总会有些单词没有被包含其中(称为out of vocabulary, OOV)。 解决方法有两种, 一是实现设定一个固定的字典,在训练LM过程中,所有不在字典中的单词统一转换成 token <UNK>, 另一种是将LM中出现频率小于n次的单词当作 <UNK>,剩下的作为字典。 根据字典对测试数据做相同操作,就可以避免OOV的问题。
在处理完OOV问题后,还有一个问题需要处理:所有单词都在字典中,但是单词的组合并没有在LM中出现这一情况。 此时就需要对基于bigram或trigram的LM进行smooth操作,规避这一问题。Smoothing过程有1点需要注意,就是smooth之后的模型,其所有概率加起来,必须仍然为1。常见的smoothing方法有:
- Additive smoothing(Laplace smoothing)
- Good-Turing
- Jelinek-Mercer smoothing (interpolation)
- Katz smoothing (backoff)
- Witten-Bell smoothing
- Absolute discounting
- Kneser-Ney smoothing
其中,Laplace smoothing 虽然简单,但效果很差,常作为一个baseline的smoothing方法。
特别的,工程上最适合的应该是 stupid backoff algorithm, 这一算法并不确保整体概率为1。仅仅是在回退时乘以系数0.4计算。即如果trigram没有找到,就使用0.4×P(bigram), 如果bigram还是没找到, 就是要 0.4×0.4×P(unigram)。由于OOV问题已解决,所以对于任意一个词,必然能计算出其概率。