自然语言处理(NLP)知识整理及概述(三)

Vector representation and models for word embedding

Vector space model

为了能用数学的方式处理解决NLP问题,必须将language model 向量化、数值化。
方法有: one-hot, 用0和1 标识句子里某个单词出现与否。此时每一个单词可以用一个长度为V(语料库中vocabulary 的数目)的向量来表示。 在此基础上,将一个句子中每个单词的向量相加,就得到了 词袋模型
词袋模型虽然过去用的比较广泛,但现在已经很大程度上被 word embedding 取代了。

Word embedding

词袋模型的问题在于无法知道不同单词之间是否存在关联, 而单词的意思往往与上下文相关。 例如: buy a car, purchase a car, get a car。 buy, purchase, get都与 a car 结合在一起使用,因此可以认为 这三个词有着类似的意思。基于这一事实, 可以建立一个 co-occurrence matrix 来判断不同单词之间的联系。
建立方式:

  1. 给定一个text或corpus 作为输入,以其vocabulary的总数目N 建立一个N×N的矩阵
  2. 设置一个偏移量 Δ, 用以表示 co-occurrence 的距离
  3. 对于矩阵的每一个元素 wij, 其值对于 第 i 个单词, 第j个单词在偏移距离Δ内出现的次数统计。
  4. 将第 i 行的所有值作为一个向量 vi, 若向量 vi1与 vi2 越相似(向量长度及向量夹角), 那么说明对应的两个词越相近。

然而,这种方法最大的问题在于矩阵非常庞大,而且非常稀疏。因此必须进行SVD降维处理。

Word2vec 和Glove

由于SVD存在很多限制:例如不能更新模型,一旦有新词加入,只能重新训练。此外, SVD的时间复杂度也很高,而且结果矩阵依然可能维度过高且稀疏。
因此,当前state-of-the-art 是word2vec 和glove。

word2vec

包含两种训练方法:

  • Continuous bag of words model (CBOW): 根据上下文, 预测某一个单词出现的概率
  • Skip gram model: 给定一个单词 ,预测它的上下文可能是什么。


word2vec的问题在于没有考虑data中重复数据的情况,也即是说,模型可能在反复学习同一句话的过程中,把部分词的权重加得过高,导致模型偏差。

Glove

与 word2vec思路相似, 采用了 count-based的方法, 并使用 matrix factorization 进行降维。

由于采用了与 co-occurrence matrix 类似的思路,因此可以应对corpus中重复数据的现象。但训练时只考虑不为零的部分。

相关资源

文本分类

应用实例: 垃圾邮件分类、文本主题划分、情绪分析、语言识别

分类方法

  • rule-based classifiers
  • 有监督分类

有监督分类训练流程

以twitter sentiment analysis为例,将twitter 分为 positive、negative、 neutral 三类。


sentiment analysis.png

相关阅读

Text classification with TensorFlow
Sentiment Analysis for reviews using IMDB Dataset with CNN and LSTM
Another Twitter sentiment analysis with Python

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容