2019-04-24

Embedding和One_hot将词变成向量的例子:

词嵌入(Word Embedding)

Word embedding 是NLP中一组语言模型(language modeling)和特征学习技术(feature learning techniques)的总称,这些技术会把词汇表中的单词或者短语(words or phrases)映射成由实数构成的向量上。

最简单的一种Word Embedding方法,就是基于词袋(BOW)的One-Hot表示。这种方法,把词汇表中的词排成一列,对于某个单词 A,如果它出现在上述词汇序列中的位置为 k,那么它的向量表示就是“第 k 位为1,其他位置都为0 ”的一个向量。

例如,有语料库如下:

John likes to watch movies. Mary likes movies too.

John also likes to watch football games.

把上述语料中的词汇表整理出来并排序(具体的排序原则可以有很多,例如可以根据字母表顺序,也可以根据出现在语料库中的先后顺序)

假设我们的词汇表排序结果如下:

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7, "games": 8, "Mary": 9, "too": 10}

那么则有如下word的向量表示:

John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0] 

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

……

此时,你也可以进一步地把文档也表示成向量。方法就是直接将各词的词向量表示加和,于是则有原来的两句话的向量表示如下:

[1, 2, 1, 1, 2, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

One-hot方法很简单,但是它的问题也很明显:

1)它没有考虑单词之间相对位置的关系;

2)词向量可能非常非常长!

针对第一个问题,你可能会想到n-gram方法,这确实是一个策略,但是它可能会导致计算量的急剧增长。因为n-gram已经在之前的文章中解释过了,下面我们来看另外一个方法:共现矩阵 (Cocurrence matrix)。

一个非常重要的思想是,我们认为某个词的意思跟它临近的单词是紧密相关的。这是我们可以设定一个窗口(大小一般是5~10),如下窗口大小是2,那么在这个窗口内,与rests 共同出现的单词就有life、he、in、peace。然后我们就利用这种共现关系来生成词向量。

例如,现在我们的语料库包括下面三份文档资料:

I like deep learning. 

I like NLP. 

I enjoy flying.

作为示例,我们设定的窗口大小为1,也就是只看某个单词周围紧邻着的那个单词。此时,将得到一个对称矩阵——共现矩阵。因为在我们的语料库中,I 和 like做为邻居同时出现在窗口中的次数是2,所以下表中I 和like相交的位置其值就是2。这样我们也实现了将word变成向量的设想,在共现矩阵每一行(或每一列)都是对应单词的一个向量表示。


虽然Cocurrence matrix一定程度上解决了单词间相对位置也应予以重视这个问题。但是它仍然面对维度灾难。也即是说一个word的向量表示长度太长了。这时,很自然地会想到SVD或者PCA等一些常用的降维方法。当然,这也会带来其他的一些问题,例如,我们的词汇表中有新词加入,那么就很难为他分配一个新的向量。

语言模型——N-gram

Word2Vec

Word2Vec之所以现在这么流行,不同于之前的一些Word Embedding方法,它能够自动实现:1)单词语义相似性的度量;2)词汇的语义的类比。此处,语义的类比,反应的是类似下面这种关系:

“国王” – “王后” ≈ “男” – “女”

“英国”–“伦敦”≈ “法国”– “巴黎”≈ “首都” 



用模型去做用户画像。而不是人工的去打标签。

什么是用户画像?

用户画像是对现实世界中用户的数学建模,它包括两方面:

一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,因此来源于现实,高于现实。

第二个是用户画像它是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的内容都是基于这个展开的。比如刚刚说的月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。

然后就是刚刚说的,用户画像是现实生活中的数学建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。

另外一个方面,就是要有一套数据化、符号化、形式化的方式去描述这套知识体系,什么叫形式化?就是机器要能够理解这套知识体系,如果只有人理解的话,这个东西是没有办法使用的,所谓形式化就是这个含义。

关于标签的介绍

从整个业界来看,整体模型也差不太多,能拉开差距的基本还是对数据的理解和数据的处理上。

标签:对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。

对于“人”这类群体,可将“男”、“女”这类特征进行抽象概括,统称为“性别”,“性别”即一个标签;

对于“手机”这类对象,可将“骁龙835”、“骁龙845”这类特征进行抽象概括,统称为“手机处理器”,“手机处理器”即一个标签。

标签值: 标签的实例,指某一标签所包含的具体内容,其特点是符合MECE原则(相互独立、完全穷尽)。

对于标签“性别”,其标签值根据MECE原则可分为“男”、“女”、“未知”;

对于标签“年龄”,其标签值可分为“0-18”、“18-35”、“35-60”、“60-100”等。

用户画像:由某一特定群体或对象的多项特征构成,输出结果通常是对特征的具体描述。(也可理解为用户画像是由多个标签组合而成,其实例是由多个标签值构成)。

例:小明是用户画像的一个实例,小明的输出结果为“男“、“20”、“iPhone”、“北京”、“足球”,是由多个标签中的具体标签值构成。


标签系统:标签和用户画像的整合应用中心,通常由标签、标签树、画像中心构成,该体系类似于一个目录字典,以文档的形式存在。

用户画像的基本流程


1)构建标签体系,标签体系一般是分几个层级,有一级类目、二级类目、三级类目,这几个只是类目或者称之为父标签,不是最终的标签。如果三级类目下面不再进行类目分级了,就到了具体的标签层。比如用户基本信息是一级类目,下面又有社会属性二级类目,最后到婚姻标签。标签体系类似于业务分层的一个字典,以文档的形式存在。

2)抽取或者衍生标签,收集用户所有可能的、重要的、缺失率比较低的原始特征数据,作为可存储的、细粒度的用户画像表特征,也称为基础标签。除了原始数据,也可以在原始数据基础上融合衍生出新的特征标签,都作为基础标签存储在用户画像表里面。用户画像表是用户画像的基础,一般包含身份信息、行为偏好、征信数据、社交关系等几大层面。

3)物理存储,利用hive生成一张用户画像表,并做定时更新。

4)应用层

客群分析,在用户画像表的基础上可以进行客群分析。首先根据需求从用户画像表里将客群提取出来,然后对这部分客群进行统计分析,或者说数据分析,最终凝练出一些可描述的、抽象层次较高的标签,作为最终的客群分析报告标签,展示在报告里面。

单个用户分析,比较类似于客群分析,最终也需要提炼总结出几个可描述的、便于常人理解的大标签,可以放到一个类似于人形状的图形上进行展示。

其它应用,利用营销推荐,多维角度分析等


三、数值型字段如何衍生出区间或者等级型标签呢?

如果是数值型字段,比如离散类型的,可以根据分箱机制进行分段;也可以利用聚类算法,对一元数据进行区间划分,充分挖掘数据内在的分布状态,划分为几个等级,而不是平均分段或者拍脑门分段。

构建用户画像的流程

利用算法对所有用户打标签。并且给用户打上标签和指数,标签代表用户对改内容有兴趣、偏好、需求等,指数代表用户的兴趣程度、需求程度、购买概率。

推荐算法中用户画像构建

没办法做到数字化的东西是不能计算也不能比较的。

《用户网络行为画像》读书笔记(五) —— 协同过虑算法

《用户网络行为画像》读书笔记(四) —— 常见推荐算法

《用户网络行为画像》读书笔记(二) ——用户画像建模

推荐系统之矩阵分解及C++实现

[机器学习]推荐系统之协同过滤算法

再谈矩阵分解在推荐系统中的应用

猜你喜欢-----推荐系统原理介绍

浅谈矩阵分解在推荐系统中的应用

推荐系统相关算法(2):k-nearest neighbor

K-nn与K-means的区别

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容