自然语言处理(NLP)知识整理及概述(一)

这是我在留学期间选修的课程 :natura language process。 这篇文章主要是为了大致的梳理这门课上的知识点,方便日后复习。因此,语言处理的主体对象是English。

语言模型 Language Model (LM)

简单来说,语言模型就是一个对于不同单词出现概率的统计。
然而,对于英语来说,每个单词可能有不同的时态和单复数等形态变化。因此,在做统计前,需要先对原始数据进行预处理和归一化。

常见的文本预处理

  • word tokenisation: 这一步是识别一个单词的组成。 例如 URL, 连字符等,这一token不是字母连续的,往往夹杂着标点符号,但仍需作为一个整体来对待。
  • text normalization: 因为单词有大小写区分,在实际应用中处理比较麻烦,往往需要统一转化成小写形式。但这一步可能导致的问题是无法正确理解全大写单词的意义。例如US 和us, 前者可以表示美国。对于不同的应用目的,这一步可以考虑对于这类全大写单词normalization时加个tag, 例如: uppercase + us。
  • Stopwords removal: is, am ,the 等单词并没有实际的意义,只是为了句子通畅。去除这些单词有助于更好的进行分析。在NLTK中提供了这类单词的列表,同时也可以根据自己的需要增加或减少。
  • Lemmatisation and stemming: 英语单词有时态、单复数之分, 如果当前的分析任务不关注这些东西,可以通过lemmatisation或stemming的方式将其还原。这样可以压缩词库的大小。 lemmatisation 是真实意义上的词性还原, 例如将visitors 还原为visitor, 符合人类的习惯,还原后的也是一个单词,但就是处理速度很慢。Stemming则是根据英语的一些后缀规律,简单粗暴地进行还原。例如,visitors会被还原成visit。
    具体实现参考 词形还原工具对比
  • sentence segmentation: 这一步是防止在整句处理时出现歧义。 例如 Phd. , U.K. 等单词, 句号并不是一句话的结束,而应该把他们作为一个整体来考虑。
    标点是否为句子的结束(end of sentence, EOS)用以下decision tree来判断:


    EOS 判断

分割句子后,每句话应该作为一个元素单独存储。

n-gram

一般来说,常用的是 unigram, bigram 和trigram, 即以1-3 个词作为一个对象来统计。n 越大, 统计结果也越稀疏。一个七八个词的组合重复出现的概率,显然远低于2-3个词的组合。 另一方面,根据马尔科夫链, 一个单词的出现,可以认为仅跟前一个词有关系,所以也没有太大必要追求过大的n。
n-gram 是一个重要的基础概念, 它所提供的概率分析可以做到很多事情, 例如机器翻译“请给我打电话”:P(“please call me”) > P("please call I ")。 又比如拼写纠正:基于概率, “its 5pm now” → 纠正为 “it's 5pm now”

Evaluation and perplexity

没有比较就没有伤害。 对于语言模型的评估, 也需要有一个比较的对象。因此,要用两种方法建立不同的语言模型(当然也可以对比前人的工作成果)。显然,任意给一个测试用的句子,如果在某一模型中的出现概率都比较大,那么这个模型显然更好。 具体来说, 评估方法有两种:

  • Extrinsic evaluation: 直接投放到实际应用环境中测试。
  • Intrinsic evaluation: 使用perplexity来评估。
    显然第一种效果能提供真实的评估,但是不太现实。因此实际上主要还是用第二种方法来评估语言模型的好坏。

首个单词问题:对于一个基于bigram或trigram的模型,在计算一个句子的perplexity时,前1或2个单词需要不能直接得到,依赖于句子开头的标识符。也即是说,在训练 n-gram 模型时, 对于每个句子,分别在开头和结尾填充n-1个<s>。从而保证在计算perplexity的时候能够正确地从第一个单词开始计算。这也是为什么前面 sentence segmentation 的时候要将句子区别存储的原因。

Smoothing

显然,无论用来生成LM的corpus多么庞大,总会有些单词没有被包含其中(称为out of vocabulary, OOV)。 解决方法有两种, 一是实现设定一个固定的字典,在训练LM过程中,所有不在字典中的单词统一转换成 token <UNK>, 另一种是将LM中出现频率小于n次的单词当作 <UNK>,剩下的作为字典。 根据字典对测试数据做相同操作,就可以避免OOV的问题。
在处理完OOV问题后,还有一个问题需要处理:所有单词都在字典中,但是单词的组合并没有在LM中出现这一情况。 此时就需要对基于bigram或trigram的LM进行smooth操作,规避这一问题。Smoothing过程有1点需要注意,就是smooth之后的模型,其所有概率加起来,必须仍然为1。常见的smoothing方法有:

  • Additive smoothing(Laplace smoothing)
  • Good-Turing
  • Jelinek-Mercer smoothing (interpolation)
  • Katz smoothing (backoff)
  • Witten-Bell smoothing
  • Absolute discounting
  • Kneser-Ney smoothing
    其中,Laplace smoothing 虽然简单,但效果很差,常作为一个baseline的smoothing方法。

特别的,工程上最适合的应该是 stupid backoff algorithm, 这一算法并不确保整体概率为1。仅仅是在回退时乘以系数0.4计算。即如果trigram没有找到,就使用0.4×P(bigram), 如果bigram还是没找到, 就是要 0.4×0.4×P(unigram)。由于OOV问题已解决,所以对于任意一个词,必然能计算出其概率。

相关阅读: Large Language Models in Machine Translation

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容