基于深度隐语义topic的用户聚合推荐--part1 topic的聚合

背景:在个性化推荐系统中,新用户的快速兴趣探索,是推荐系统能否真正抓住用户的真正喜好,并达到留存的关键因素。如何快速兴趣探索,首先要选取一种合适的粒度,业界常用的方法有基于item粒度的,或者基于category亦或是基于subcategory的。前者item粒度太细,探索的效率太低,新用户不会给推荐系统太多的机会,几刷抓不住就不会停留。后者类别或者二级类别粒度太多,比如体育类别里面就有足球,篮球,网球,排球,足球里可以细分成欧冠,五大联赛,中国联赛等等,不喜欢足球的人可能喜欢网球,不喜欢中超的人可能喜欢欧冠。所以如何设计一种合适的粒度就成了当务之急,本文介绍一种基于深度隐语义topic的用户聚合召回算法来解决上述问题。

一:基于深度隐语义的topic。

图1.隐语义topic获取的主流程

推荐系统中,每天大量的用户会产出大量的点击行为,不同用户的行为序列就是构成了丰富的训练语料,无论我们将这些训练语料看做是句子,还是基于user节点或者item节点桥接成图,还是采用监督学习的方法,将每一个点击看作正样本,都可以将系统中的item做nn级别的embeding,从而学习到item的向量表示,这里不具体介绍item embeding的方式方法,感兴趣的同学可以参考我之前的文章,我曾落地过的比较行之有效的item embeding方法与模型有(item2vec, graph embedding, deep match(youtube dnn),dssm )。

获得item的向量表示之后,利用向量之间的距离远近关系,采用传统的聚类方法如kmeans等来将相近的item聚合到一起,行成簇(cluster),每个cluster就可以表示一个隐语义topic。常用kmeans的同学会知道,需要设定topic的数目,这个topic的数目是需要根据库里总体的item数目,考虑每个topic可能的item数目(比如500或者1000)然后得到一个基本topic数目,去试验几次得到一个比较合理的topic数目,topic的数目合理的解释是同一个topic内必须都是一个主题,可以允许少量的不同topic描述的是一个主题。图2.简单揭示了topic是如何由item的向量聚合而来的。首先item映射到向量空间里就是图2中左侧很多随机的点,例子中肉眼可见,这些点分布到了左下和右上两个区域。经过聚合,可以将距离近的点合成一个cluster,也就是一个簇,就是右边的topicA,topicB。当然kmeans里面迭代多少步,或者当簇中心移动的距离小于多少时就提前停止迭代,这个需要设置一下。

图2.topic获取过程解析

二:topic的实际例子解析。

随机抽取几个topic里面的top3 item 给大家展示一下:

(1)1.神奇宝贝:这个反派太温柔,毒粉蝶的春天与武藏的少女心;2.小次郎手里最强的六只神奇宝贝,最后一只能够完虐皮卡丘;3.神奇宝贝特别篇中的那些人气角色,四天王横扫四方,夏伯威震全场。 显然我们一看就能发现这个topic说的是动漫 数码宝贝的事情,这个粒度正是粗细合适。

(2)1.赶作业赶出心脏病得了心脏病怎么调养;2.心血管受损容易危害心脏,抓住这4个机会,或能助你预防心脏病;3.不论男女,心梗发作时,有4个“不明显”症状,早发现,或能救命。 同样我们一看也能发现这个topic说的是健康 心脏方面的事情。

有了topic那么接下来基于topic如何进行推荐,这里也是经过了一些思考,下一节给大家详细讲解。最后给大家留一个问题,大家可以思考一下,文中说,topic不能允许,同一个topic里面介绍两个事情,但是可以部分容忍两个topic介绍一个事情。当发现一个topic介绍多个事情时,我们只需调大一下topic数目即可,但是发现多个topic介绍同一个事情时候,我们要缩小topic的数很难缩到满意的数目,这里有没有一种合适的算法,来帮助我们呢?其实是有的,大家可以思考一下。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容