一、文本表示

1、为什么需要文本表示

文字是人类认知过程中产生的高层认知抽象实体,我们需要将其转换为神经网络可以处理的数据类型。

2、文本表示的形式

类比于语音图像,我们希望可以将文字或单词转换为向量。

3、文本表示的方法

3.1 one-hot表示

one-hot即独立热词,词语被表示成一个维度为词表大小的向量,这个向量中只有一个维度是1其他位置都是0.假如词表中只有四个个词“奥巴马”、“特朗普”、“宣誓”、“就职”,那么他们将被表示为:

奥巴马:[1 0 0 0]
特朗普:[0 1 0 0]
宣誓:  [0 0 1 0]
就职:  [0 0 0 1]

one-hot表示的优点是简单易用,但是有着致命的缺点:

  • 如果一个词表有十万个单词,那么就需要十万维的向量来表示每一个单词,而每个向量只有一位是1,在储存上造成大量浪费,在深度学习场景中容易受到维度灾难的困扰。
  • 奥巴马和特朗普都是美国总统,而one-hot表示出的两个向量是正交向量,也就是他们之间毫无关系,这显然是丢失了相关语义信息。
    因此我们需要更好的表示方法。

3.2分布式表示

为了克服one-hot的缺点,。Dagan和Schütze等人提出了分布式表示方法。
其理论基础就是上下文相似的词,其语义也相似,这和我们的认知是一致的,当我们在阅读文章时发现不认识的字,也会通过上下文来猜测字的含义。比如:

昨天奥巴马宣誓就职
昨天特朗普宣誓就职

如果两个词可以互换,那么它们的语义就是相似的,所以奥巴马特朗普应该具有相似的语义。
分布式表示方法要做的就是利用上下文信息把每一个词映射成一个维度固定的短向量,这样在它们所构成的向量空间中,每个词都是一个点,就可以通过距离来判断语义的相似度。

3.2.1基于矩阵的分布式表示

这类方法需要构建一个“词-上下文”矩阵,从矩阵中获取词的表示。在“词-上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。在这种表示下,矩阵中的一行,就成为 了对应词的表示,这种表示描述了该词的上下文的分布。比如:

I love monkeys
Apes and monkeys love bananas
窗口值设为2

Co-occurrence matrix I love monkeys and apes bananas
I 0 1 1 0 0 0
love 1 0 2 1 0 1
monkeys 1 2 0 1 1 1
and 0 1 1 0 1 0
apes 0 0 1 1 0 0
bananas 0 1 1 0 0 0

此时的bananas的词向量就是[0 1 1 0 0 0]

  • 在窗口值为2点情况下,共现矩阵中已经含有大量的0,如果我们减少窗口值,共现矩阵就会更加稀疏。此外我们发现the monkey的共现次数很多,而这仅仅因为the本身就被大量使用。因此研究人员提出了多种加权和平滑方法,最常用的有tf-idf、PMI和直接取log。
  • 通常原始矩阵是高维且稀疏的,因此需要使用一些降维技术做进一步的处理,比如奇异值分解(SVD)、非负矩阵分解(NMF)、典型关联分析(CanonicalCorrelationAnalysis,CCA) HellingerPCA(HPCA)。
3.2.2基于神经网络的分布式式表示
语言模型简介

语言模型可以对一段文本出现的概率进行估计,估计的概率越大,表明这句话越有可能是‘人话’。
概率计算公式如下:

image.png

这里有一个问题,如果一句话很长,那么下式的概率估算会非常困难:

image.png

这时我们引入n元模型(n-gram),就是只考虑中心词附近的n个词,对条件概率做了如下近似

image.png

当n=1表明每个词都是独立的,完全不利用上下文信息。而n的值越大表示利用的上下文信息越多。但n的值一般取3,因为n的取值过大,会增大计算量还会造成大量中心词和上下文共现的次数为零的情况出现。这局限了我们不能更充分的利用上下文。
而使用神经网络来训练语言模型,就可以突破这种局限。当网络训练成功,其中参数就是我们想要的词向量。

神经网络语言模型

提到神经网络语言模型,首先要理清两个名词

  • word Embedding:翻译为词嵌入,是一组语言模型和特征学习技术的总称,目的就是把单词映射成向量。
  • word2vec:Google公司在2013年提出的一个工具包,至今被广泛使用。它是基于神经网络模型对word Embedding的实现。其中包含了CBOWSkip-gram两个语言模型。
    神经网络的结构很简单,只是一个浅层网络,中间只有一层隐藏层。
    Word2Vec网络结构

    首先来看CBOW模型,它的核心思想是根据上下文来预测中心词,例如:

昨天特朗普宣誓就职:将全力交还给美国人民

可以近似理解为将特朗普就职作为输入,那么神经网络会输出宣誓

那么神经网络到底是如何工作的呢?下面就是神经网络的本质-矩阵的运算


CBOW运算过程

特朗普就职表示成one-hot形式输入进神经网络,经过一系列运算输出一个向量,不断优化参数矩阵W,使最后输出的向量与宣誓的one-hot表示相同,此时W的每一列对应一个词的词向量。
此时我们发现,用W的每一列表示单词,它的维数是4,而使用ont-hot表示的向量维数是9,有效的降低了维数。
同时词向量还具有了语义信息,一种直观的感觉,特朗普奥巴马附近大概率会出现白宫美国等词,那么把白宫美国作为上下文输入进网络,能得到特朗普也能得到奥巴马,这样训练出的两个词的词向量一定会是相近的。事实也正是如此:

语义效果

另外一个有趣的现象是king + man - women = queen词向量在有了语义信息后,做加减法也有了意义。

timg (1).jpg

skip-gram模型的核心思想与CBOW相反,它是利用中心词来预测上下文

引用
Word embeddings: how to transform text into numbers
word2vec 中的数学原理详解
词嵌入来龙去脉
Word Embedding与Word2Vec
word2vec概述

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容

  • Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的...
    MobotStone阅读 2,971评论 1 12
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 13,915评论 2 64
  • 1.NLP当前热点方向 词法/句法分析 词嵌入(word embedding) 命名实体识别(Name Entit...
    __Aragorn阅读 6,032评论 1 9
  • 近些年来,维克多·马格林曾提出:设计史究竟是一门新兴学科,还是一个跨学科研究的新的综合领域? 作为一个设计理论专业...
    风灵同学阅读 367评论 0 2
  • 姓名: 张彩晖 公司:东莞市沃顿印刷有限公司 365期 感谢2组学员 【日精进打卡第29天】 【知~学习】 1、背...
    WT小晖阅读 201评论 0 0