【碎布片】独热表示One-Hot

前因:

阅读《KGDDevReport2018知识图谱》的时候,在知识表示学习部分有这样一句话“知识库的三元组表示实际就是基于独热表示的。”

什么是独热?独自发热?独热热不如众热热?

我按耐住疯狂的想法,询问某位高姓学姐得知:独热——one-hot

参考链接:

https://blog.csdn.net/lusic01/article/details/84345464

https://baike.baidu.com/item/%E7%8B%AC%E7%83%AD%E7%A0%81/1428731?fr=aladdin

https://blog.csdn.net/Dorothy_Xue/article/details/84641417?depth_1.utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task

https://www.jianshu.com/p/cd937f20bf55

独热码与独热编码

  • 首先要区分码制和数制:

    • 码制:表示方法、编码方法,任何人为赋予的含义,可逻辑可非逻辑,无大小,无位权。

    • 数制:计数方法,有大小,有位权,常见的数制有:二进制、十进制、十六进制等。

  • 独热码(One-Hot Code),是说有多少状态就有多少比特,而且只有一个比特为1,其它全为0的一种码制。

  • 那么可以举例:

2位独热码有2个
- 01/10
3位独热码有3个
- 001/010/100
...
n位独热码有n个
- 00...01/00...10/.../10...00
  • 独热编码(One-Hot Eoding)是比较常用的文本特征提取的方法。通常需要处理的数值是稀疏散乱分布在空间中的,我们并不需要存储这些大数值,可以使用独热编码。

  • 独热编码就是用n位状态寄存器编码n个状态,每个状态都用独立的寄存器位,且这些寄存器中只用一位有效。

  • 那么可以举例:

有4个样本,每个样本s有三个特征f,特征用十进制编码如下:
 __  |f1  |f2  |f3
 s1  |1  |1  |1
 s2  |2  |2  |1
 s3  |2  |3  |2
 s4  |1  |4  |3
 对每种特征每个样本进行遍历,可得每个特征有几种取值,有几种取值就对应有几种状态,进行独热编码得到下面的形式:
 __  |f1  |f2  |f3
 s1  |01  |0001  |001
 s2  |10  |0010  |001
 s3  |10  |0100  |010
 s4  |01  |1000  |100
 那么可以得到四个样本的特征向量表示:
 s1->[0,1,0,0,0,1,0,0,1]
 s2->[1,0,0,0,1,0,0,0,1]
 s3->[1,0,0,1,0,0,0,1,0]
 s4->[0,1,1,0,0,0,1,0,0]

独热编码应用与词袋模型

  • One-Hot在特征提取上属于词袋模型(Bag of Words)。

    • 词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。
  • One-Hot应用举例:

 假设语料库有三句话:
 - 我爱中国
 - 妈妈爱我
 - 妈妈爱中国
 ​
 首先将语料库每句话分成单词,编号为:
 1.我 2.爱 3.中国 4.妈妈
 ​
 然后使用One-Hot对每句话提取特征向量,按照上面的顺序有:
 - [1,1,1,0]
 - [1,1,0,1]
 - [0,1,1,1]
  • One-Hot优点是:

    • 解决了分类器处理离散数据困难的问题

    • 一定程度上起到了扩展特征的作用

  • One-Hot缺点是:

    • One-Hot是一个词袋模型,不考虑词与词之间的顺序问题,而在文本中,词的顺序是一个很重要的问题。

    • One-Hot是基于词与词之间相互独立的情况下的,然而在多数情况中,词与词之间应该是相互影响的。

    • One-hot得到的特征是离散的,稀疏的。

独热编码与知识库

  • 回到文章前因“知识库的三元组表示实际就是基于独热表示的。”

  • 知识库进行知识表示可以形式化为三元组,三元组可以理解为 (实体entity,实体关系relation,实体entity), 独热表示是一种传统的知识表示方案。

后果:

独热是一种n状态编码方式,在特征提取上属于词袋模型,在知识表示学习上,独热表示是一种传统的知识表示方案。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,331评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,372评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,755评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,528评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,526评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,166评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,768评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,664评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,205评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,290评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,435评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,126评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,804评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,276评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,393评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,818评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,442评论 2 359

推荐阅读更多精彩内容