世界其实也很小之偶遇前男友

姓名:梁祥        学号:17021210935

【嵌牛导读】:其实我们已经被各种推荐系统包围而不所知,每天都被各种推送消息狂轰滥炸。但是,商家为什么会这么执着于给我们推送,他们有什么勇气觉得推送的这些消息会对我们或者他们有价值,其实这都是由科学依据哒(此处卖萌求不杀),且看我慢慢道来。

【嵌牛鼻子】:推荐系统,协同过滤算法

【嵌牛提问】:常用的推荐系统算法是什么?其理论依据与具体操作流程又是什么?

【嵌牛正文】:

首先我们先来看一个虽然悲伤,但也能笑出杠铃声的故事:

一个漂亮的小姐姐因为无聊打开了某某云音乐的私人FM,无意中发现了一首虽然只有几个人的评论,但是很喜欢很好听的歌。而在那几条评论里刚好就有前男友的一条,点开之后就是这个画风:

而且,经过私信发现居然真的是同名同姓的前男友!果然是相似的人会喜欢相似的歌呢。最后还有一个不失尴尬的小结尾-----图中的Pippa是一个98年的漂亮小妹妹,而图中的主人公则是90年出生的27岁“阿姨”。

好的,故事环节到此结束。对于为何会这么巧遇见同一个前男友的问题,其实是有迹可循的。对于大多数的推荐系统来说,单纯利用推荐物品(价格、热度、外观等)和推荐用户(年龄、性别、职业)的属性信息进行聚类,不仅在物品和用户属性上存在着维度高、数量大、属性之间难以取舍等问题,而且在实际的单一推荐结果也有很大误差。

因此,大幅度摆脱用户和物品属性限制的协同过滤算法应运而生了。

关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。协同过滤算法包括了基于用户和基于物品的协同过滤算法。其中,一类表示的是喜欢同一类型商品的用户为相似用户,另一类表示被同一类型用户喜欢的商品为相似商品。

基于相似物品、相似用户和相似特征的物品推荐

协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题:

(1)如何确定一个用户是否与你有相似的品味?

(2)如何将邻居们的喜好组织成一个排序目录?

要解决这两个问题,一般需要进行以下三个步骤:

a. 收集用户偏好

b. 找到相似的用户或者物品

c. 计算并推荐

(1) 收集用户偏好

从用户的行为和偏好中发现规律,并基于此进行推荐,所以如何收集用户的偏好信息成为系统推荐效果最基础的决定性因素。这些信息其实可以利用很多专业的数据库进行导入,比如你在商店购买货物的历史清单,曾经对某个影视作品的评级或评论,你的淘宝购物车中的商品信息,甚至是你电脑浏览器中的保留网站浏览信息的Cookies。通过对同一商品对象的操作行为或喜好程度进行分组,即可以获得不同用户的偏好信息。

当然,对于这些杂乱无章的获取信息,最重要的就是预处理了。通过对这些信息进行减噪和归一化,才能更有利于下一步的分类和计算。

(2) 找到相似的用户和物品

在获取到用户的喜好程度之后,就可以根据某些距离计算方法对用户或者商品的相似程度,从而进行聚类操作了。常见的相似度计算方法有很多种,比如:欧氏距离,曼哈顿距离,余弦相似度等等。对于不同类型的属性向量以及系统的实时性需求,可以合理地选择不同的计算方法。

在计算用户之间的相似度时,是将一个用户对所有物品的偏好作为一个向量,而在计算物品之间的相似度时,是将所有用户的偏好作为一个向量。求出相似度之后,就可以计算相似邻居了。

(3) 计算并推荐

在计算出相似用户和相似物品之后,接下来就是推荐了。在推荐模块通常是使用信息检索的方式实现,通过“特征--物品”的倒排索引,快速找到和用户相关的物品。而在优化排序方面,可以通过优化某一指标(比如点击率、转化率)得到优化模型。以点击率为例,该模型可以利用用户特征和候选物品特征,计算出用户对物品的预估点击率,然后将候选物品按照点击率排序。预估点击率,然后将候选物品按照点击率进行排序。预估点击率只是排序参考的一个指标,在众多系统中,排序时还需要综合考虑结果的多样性和新颖性。

那么总的来看,好像协同过滤算法已经在方方面面超越了传统的聚类分析方法。那么它到底有什么缺陷呢?

(1) 冷启动问题

对于协同过滤算法来说,最严重的问题莫过于最初信息的获取了。其实这也是推荐系统的通病。巧妇难为无米之炊,没有初始的用户和商品信息,无论如何都是无法获得有效的推荐结果的。而大多数的推荐系统选择的方法是利用用户的社交账号的相关信息进行分析,比如说将你QQ账号上曾经设置成特别关心的“前男友”归结到与你相似的一类用户。所以像上面那种路遇同一个前男友的狗血剧情也就不难解释了。

(2)稀疏性问题

其实大多数的数据来源都是从网络上爬取或者从某些数据公司获取的数据库信息,而非对用户进行调研获取的(就算有成本也太高)。以某宝为例,收藏某类热门商品的用户可能有千千万,而对某些冷门商品可能就只有几个用户关心。假设总的商品数为m,总的用户数为n,在不做任何处理的情况下,要进行处理的矩阵维度为m*n,至于m*n的这个结果会有多大,作为剁手党的一员,我想,你懂得。因此,如此之大的数据矩阵会严重影响系统的处理效率。而对于这些数据又往往具有明显的稀疏性。因此,通过合理的维度约减可以有效的降低系统的处理难度,提高使用效率。

总的来说呢,协同过滤算法虽然不是当前最完美的推荐算法。但是对于具有一定用户基础和商品体量的使用者来说,往往是最简单有效的方法。因此,避开前男友的残酷问题不谈,难道你觉得自己曾经千挑万选才找到的前男友他喜欢的歌,你听起来会没有感觉嘛?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容