推荐系统初探

转自七月算法班--寒老师

学习笔记

之前实验室是做社交网络的,主要是爬取的一些新浪微博的数据,来做一些社交行为的预测;或者是爬取豆瓣网的一些数据,根据社交网络的一些性质来做书籍电影或者话题等等的推荐。

从研二开始,老师给我的要求是在社交网络上看看能不能想到什么点,可以用条件场的方法去做,我想了很久,其中有一个点是关于迁移学习的,无奈在数据的抓取,以及难度颇高被老师否决了。关于这个方面我大致也看了2个月的paper。后来去弄机器学习应用在数据安全领域也是有契机的,因为实验室是重庆市的重点安全实验室,加上刘老师又是重庆邮电大学安全领域的牵头人,因此每年都需要在安全方面产出一些论文,于是老师让我转入了安全攻防方向。

但是,推荐始终是整个实验室大部分人研究的主题,关于这一块,我必须认真补一补。

个人的准备是:书+paper+视频

书:推荐系统实战

paper:sci+ei+计算机学报+软件学报

视频:七月算法班

-----推荐系统是什么

根据用户的一些信息去判断用户当前的需求/感兴趣的item

1) 历史行为

2) 社交关系(实验室重点研究特征,显示链接 | 隐链接)

3)兴趣点

4)上下文关系

.....

---推荐系统之应用

-----Netflix推荐电影

----Google news能够带来额外的38%的点击

-----亚马逊35%的销售额都来源于它的推荐

-----头条半数以上的新闻和广告点击都来源于推荐

----京东一年推荐和广告有几亿的收益

---推荐系统之系统结构

离线部分---训练模型 [准确度]

在线部分--根据上下文信息给出最后推荐结果  [速度]

准确度+速度

-----推荐系统--评定标准

---1. 评分系统

准确度判断---评分系统

----2. topN推荐

准确率与召回率

--覆盖率

表示对物品长尾的挖掘能力,越长可能个性化程度高(推荐系统希望消除马太效应【热门】)

覆盖率

I为商品库的某个子类的全集,分子是从这个里面推荐出去了多少

从信息熵的角度,p为推荐概率=第i个商品推荐的次数 / 总次数

当所有商品被推荐概率为0.5时,H最大。可以更精准地度量覆盖率

---多样性

表示推荐列表中的物品两两之间的不相似性

S(i,j)表示两个物品之间的相似度

物品的多样性

注意:上面的分母表示Cn^2排列组合的展开

--其他标准

-新颖度 -不知道的商品

-惊喜度 -和兴趣不相似,却满意的

-信任度 -可靠的推荐理由

-实时性 - 实时更新程度

举例 --NetFlix的复杂推荐模型

三层推荐模型

经典算法初步

---基于内容的推荐

---基于用户喜欢的item的属性/内容进行推荐

---需要分析内容,无需考虑行为

---通常在文本相关的产品进行推荐

--item通过内容(关键词)关联

------电影题材:爱情/探险/动作/喜剧

------标志特征:黄晓明/王宝强

------年代:1995,2017

------关键词

--基于比对item内容进行推荐

方法:

----对于每个要推荐的内容,建立一份资料

-------比如词ki在文件dj的权重wij(常用方法:TF-IDF)

----对用户也建立一份资料

-------比如定义一个权重向量(wc1,...,wck)wci表示第ki个词对用户c的重要程度

----计算匹配度

余弦距离

坏处:耗时,每个文本需要建立向量进行挖掘

好处:不需要加入用户行为信息

----协同过滤

----user-based

  找到和用户最近的其他用户,找到他们看/买过但是当前用户每一买过的item,根据距离加权打分

找到最高的推荐

基于用户的协同过滤
item-based CF

根据用户对商品/内容的行为,计算item和item的相似度,找到和当前item最接近的进行推荐

--相似度和距离度量

相似度和距离定义

Jaccard相似度适合0-1的值

Person和余弦相似度的区别在于Pearson会对每个向量减去均值

Pearson向量之所以要减去均值是因为用户存在偏好,Pearson可以做相对的归一再来计算相似度

----基于用户的协同过滤

基于用户的协同过滤

----推荐系统之--冷启动问题

--对于新用户

1. 所有推荐系统对于新用户都有这个问题

2. 推荐非常热门的商品,收集一些信息

3. 在用户注册的时候收集一些信息

4. 在用户注册完之后,用一些互动游戏确定喜欢与不喜欢


--对于新商品

1. 根据商品本身属性,求与原来商品的相似度

2. item-based协同过滤可以推荐出去

----隐语义模型(区别于协同过滤)

矩阵填空

隐因子分析

隐语义模型

分别对两个维度进行factor分析

对用户和电影的因子进行计算

计算

隐语义模型包括:pLSA,LDA,Topic model,Matrix factorization,factorized model

----隐语义模型

----需要矩阵分解,首先想到SVD,但是SVD的时间复杂度是O(m^3),同时原矩阵的缺省值太多。

隐语义模型

--最简单的办法是直接矩阵分解

--CF简单直接可解释性强【缺点:数据稀疏关联不上】,但隐语义模型能更好地挖掘用户和item关联中的隐藏因子

举例:

用户物品评分关联矩阵

解法:

梯度下降-找最佳P|Q

再还原回矩阵乘积,即可补充未打分项

通常情况下,我们会限定分解得到的P和Q中的元素都非负,这样得到的结果是一定程度上可解释的

因为不存在减法操作,因此可以看作对隐变量特征的线性加权拟合

LibMF,LibSVD

---加Bias的隐语义模型

评价系统均值,用户的bias,电影的bias

加入Bias的隐语义模型
损失函数

Netflix推荐优化过程

0.85这个应该还叠加了其他的tricks在里面

-----------Word2vec与用户行为序列

1.我们给定中文分词后的文本,使用word2vec能得到每个词(phrase)在高维空间的特征向量。

2.向量和向量之间的距离远近,表示2个词的关联度高低。

3.和“北京”最近的词为“东京”“柏林”“巴黎”“伦敦”

----在推荐里怎么用?

1. 把用户的行为序列当做分词过后的phrase

2. 送给word2vec学习

3.根据商品映射得到的特征向量去找相似的商品

本质上也是体现商品关联,但是比协同过滤覆盖度高

--个性化结果展出方式

----按照不同维度(比如题材展出)

----排序的结果使用上下文信息重排

----对于结果都提供解释(解释理由)


---如何得到数据?

---隐性反馈:

最近观看,打分情况,浏览,停留时间

---显性数据:

用户偏好

标准:准确度RMSE,MSE,丰富度(覆盖率),新鲜度(怎么做?)


CF+MF+Word2vec+Learningtorank(比如PageRank)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容