Word Representation

编码

任何信息在计算机内的存储方式都是数字,更加具体的说是0-1的二进制码。为了能够让生活中的语言能够存储于计算机中,我们会给所有的字符(包括字母字符,汉子等所有的其他语言文字)一个编码方式,比如小写字母a在计算机中编码的十进制是97,大写字母A的编码是65。只要每个字符的编码能够区别于其他的字符就行。当然为了处理更加复杂的问题,比如单词,词语。同样需要用“数字”去表示它们。这里的数字就是指向量。

one-hot 表示

one-hot词表示方式是构造与词字典相同长度的向量,所有的词按照一定次序,向量的某个维度不为0,表示该位置的词。也就是说词向量的表示其中一位不为0,其余的都是零。
例如:
字典只有5个词
V = {"don't", "hate", "I", "it", "love"}
e.g. : hate=[0,1,0,0,0], it=[0,0,0,1,0]

对于一句话可以有两种表示方式:一种是将对于的词向量拼接起来,还有一种是计算句子中每个词出现的频数。
D="I love it"
sequential 表示方式:[00100 | 00001 | 00010]
bag of words(BOW)表示方式:[00111]

seq的表示方式具有词序的信息,长度是随着句子的长度增长而 增长,而bow表示方式没有词序信息,但是长度固定。

对于one-hot的表示方式存在以下的三点缺点:

  • 每个词的向量长度等于词汇表的长度,英语常见单词50000,中文的更加多,常见的词汇至少500000。对于seq的表示方式将是无法接受的。
  • 虽然BOW的长度固定,但是BOW的表示方式没有词序。
  • 这种表示方式丧失了词的语义信息。

word2vec (Distributed representation)

word2vec就是一种word 的低维表示方式,或者称为word distributed representation.[1],[2]
这两篇Paper都是Google 的 Tomas Mikolov 2013年的工作,并公布了代码。他提出了两个模型CBOW和Skip-gram。其实更早做word 的distributed representation的是 bengio 2003 年的paper “A Neural Probabilistic Language Model”[3]

word2vec方法有两个重要的特点,一个是速度快,另一个是具有语义信息,如果两个词的含义比较接近的话,它们在向量空间也比较接近;并且能够得到如下的类似于"A-B = C-D",比如“中国- 北京 = 法国-巴黎”,即北京市中国的首都,巴黎是法国的首都。word2vec得到的向量是低维的,一般维度在50-200维,相比于one-hot的几万维甚至几十万维大大降低了存储效率。

参考

[1].Distributed Representations of Words and Phrases and their Compositionality
[2].Efficient Estimation of Word Representations in Vector Space
[3].A Neural Probabilistic Language Model

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,928评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,748评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,282评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,065评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,101评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,855评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,521评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,414评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,931评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,053评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,191评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,873评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,529评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,074评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,188评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,491评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,173评论 2 357

推荐阅读更多精彩内容