推薦系統(一):推薦系統實戰第一章

什么是推荐系统

信息过载:information overload

推荐系统任务

联系用户和信息,一方面帮助用户发现对自己有价值的信息
另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢

推荐系统不需要用户提供明确的需求,通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息

搜索引擎满足了用户有明确目的主动查找需求,而推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容

社会化推荐(social recommendation)

让好友给自己推荐物品

基于内容的推荐 (content-based filtering)

分析用户曾经看过的电影找到用户喜欢的演员和导演,然后给用户推荐这些演员或者导演的其他电影

基于协同过滤(collaborative filtering)的推荐

找到和自己历史兴趣相似的一群用户,看看他们最近在看什么电影,那么结果可能比宽泛的热门排行榜更能符合自己的兴趣


个性化推荐系统的应用

电子商务

亚马逊:

个性化推荐列表

基于物品的推荐算法(item-based method)/Facebook的好友关系

相关推荐列表(打包销售(cross selling))

买了这个商品的用户也经常购买的其他商品
浏览过这个商品的用户经常购买的其他商品

电影和视频网站

Netflix/YouTube/Hulu:基于物品的推荐算法

个性化音乐网络电台

Pandora

基于内容(音乐基因工程)

Last.fm

利用用户行为计算歌曲的相似度

个性化推荐的成功应用需要两个条件:

  • 信息过载
  • 用户大部分时候没有特别明确的需求

音乐推荐的特点:

  • 物品空间大
  • 消费每首歌的代价很小
  • 物品种类丰富
  • 听一首歌耗时很少
  • 物品重用率很高
  • 用户充满激情
  • 上下文相关
  • 次序很重要
  • 很多播放列表资源
  • 不需要用户全神贯注
  • 高度社会化

音乐是一种非常适合用来推荐的物品
很多推荐系统都是作为一个应用存在于网站中(亚马逊的商品推荐和Netflix的电影推荐)
音乐推荐可以支持独立的个性化推荐网站(Pandora、Last.fm和豆瓣网络电台)

社交网络

社交网络中的个性化推荐技术主要应用

1.利用用户的社交网络信息对用户进行个性化的物品推荐;
2.信息流的会话推荐;
3.给用户推荐好友。

个性化阅读

Google Reader

用户关注自己感兴趣的人,然后看到所关注用户分享的文章

Zite

收集用户对文章的偏好信息

Digg

根据用户的Digg历史计算用户之间的兴趣相似度,然后给用户推荐和他兴趣相似的用户喜欢的文章

基于位置的服务

位置是一种很重要的上下文信息,基于位置给用户推荐离他近的且他感兴趣的服务,用户就更有可能去消费

个性化邮件

Tapestry

通过分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序,从而提高用户的工作效率

个性化广告

<dt>

个性化广告投放 狭义个性化推荐
以用户为核心 以广告为核心

广告定向投放(Ad Targeting)

计算广告学

个性化广告投放技术

  • 上下文广告
  • 搜索广告
  • 个性化展示广告

推荐系统评测

图片.png

好的推荐系统,三方共赢

预测准确度是推荐系统领域的重要指标,准确的预测并不代表好的推荐。对于用户来说,他会觉得这个推荐结果很不新颖。

好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣。

推荐系统的试验方法

获得推荐系统指标的方法

离线实验(offline experiment)
用户调查(user study)
在线实验(online experiment)

离线实验

  1. 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
  2. 将数据集按照一定的规则分成训练集和测试集;
  3. 在训练集上训练用户兴趣模型,在测试集上进行预测;
  4. 通过事先定义的离线指标评测算法在测试集上的预测结果。
优点 缺点
不需要有对实际系统的控制权 无法计算商业上关心的指标
不需要用户参与实验 离线实验的指标和商业指标存在差距
速度快,可以测试大量算法

用户调查

  1. 用户调查需要有一些真实用户,让他们在需要测试的推荐系统上完成一些任务;
  2. 在他们完成任务时,我们需要观察和记录他们的行为,并让他们回答一些问题;
  3. 我们需要通过分析他们的行为和答案了解测试系统的性能。
优点 缺点
获得很多体现用户主观感受的指标 招募测试用户代价较大
相对在线实验风险很低,出现错误后很容易弥补 设计双盲实验非常困难

在线实验

AB测试是一种很常用的在线评测算法的实验方法</dt>

AB测试

它通过一定的规则将用户随机分成几组并对不同组的用户采用不同的算法,然后通过统计不同组用户的各种不同的评测指标比较不同算法

优点 缺点
公平获得不同算法实际在线时的性能指标 周期比较长
大型网站的AB测试系统的设计也是一项复杂的工程
图片.png

一个新的推荐算法最终上线,需要完成上面所说的3个实验

  1. 通过离线实验证明它在很多离线指标上优于现有的算法。
  2. 通过用户调查确定它的用户满意度不低于现有的算法。
  3. 通过在线的AB测试确定它在我们关心的指标上优于现有的算法。

评测指标

用户满意度

用户满意度没有办法离线计算,只能通过用户调查或者在线实验获得。

用户调查

用户调查获得用户满意度主要是通过调查问卷的形式</dd>

在线实验

用户满意度主要通过一些对用户行为的统计得到

预测准确度

预测准确度

度量一个推荐系统或者推荐算法预测用户行为的能力。

这个指标是最重要的推荐系统离线评测指标

不同的研究方向介绍它们的预测准确度指标

1.评分预测

图片.png

覆盖率

图片.png

多样性

图片.png

新颖性

新颖的推荐是指给用户推荐那些他们以前没有听说过的物品

惊喜度

如果推荐结果和用户的历史兴趣不相似,但却让用户觉得满意,那么就可以说推荐结果的惊喜度很高,而推荐的新颖性仅仅取决于用户是否听说过这个推荐结果。

目前并没有什么公认的惊喜度指标定义方式

信任度

两个推荐系统,尽管他们的推荐结果相同,但用户却可能产生不同的反应,这就是因为用户对他们有不同的信任度。

度量推荐系统的信任度只能通过问卷调查的方式

提高推荐系统的信任度主要有两种方法

  • 增加推荐系统的透明度(transparency)
  • 利用用户的好友信息给用户做推荐

实时性

  • 推荐系统需要实时地更新推荐列表来满足用户新的行为变化
  • 推荐系统需要能够将新加入系统的物品推荐给用户

健壮性

指标衡量了一个推荐系统抗击作弊的能力。

提高系统的健壮性

  • 选择健壮性高的算法
  • 设计推荐系统时尽量使用代价比较高的用户行为
  • 在使用数据前,进行攻击检测,从而对数据进行清理

商业目标

最本质的商业目标就是平均一个用户给公司带来的盈利

总结

图片.png

在给定覆盖率、多样性、新颖性等限制条件下,尽量优化预测准确度。

评测维度

增加评测维度的目的就是知道一个算法在什么情况下性能最好

  • 用户维度:主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
  • 物品为度:包括物品的属性信息、流行度、平均分以及是不是新加入的物品等
  • 时间维度:包括季节,是工作日还是周末,是白天还是晚上等
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容