推荐算法入门

推荐算法入门

1. 推荐算法知识架构

​ 推荐算法有很多种,大体上可以将推荐算法分为以下几种:

  1. 协同过滤推荐算法(Collaborative Filter)

  2. 基于内容的推荐算法(Content-based Filter)

  3. 基于人口统计信息的推荐算法(Demographic-based)

  4. 混合推荐算法(Hybrid Recommender)

2. 协同过滤推荐算法(Collaborative Filter,CF)

​ 因为这种推荐算法可以通过基于统计的机器学习算法来得到较好的推荐效果,在工程上容易实现,所以目前绝大多数应用的推荐算法都是CF。CF实现的方式有以下几种:

  1. 基于用户的推荐(Collaborative Filter of base on User )(user-base)

  2. 基于内容的推荐(Collaborative Filter of base on Item) (item-base)

  3. 基于模型的推荐(Collaborative Filter of base on model)(model-base)(目前最主流协同过滤类型,一大堆机器学习算法可以在这里找到用武之地)

DemoCF算法入门demo Java版(建议先实现一下这个demo,可以帮助树立对于CF的信心)

user-base和item-base使用时的选择问题

​ 一般来说,如果item数目不多,比如不超过十万,而且不显著增长的话,就用item-base好了。因为当item的数目不多并且不显著增长,说明item之间的关系在一段时间内相对稳定(对比user之间的关系),对于实时更新item-similarity的需求就降低了很多推荐系统效率提高很多,所以用item-base更优。反之,当item数目很多,建议用user-base。

CF小结

​ 协同过滤作为一种经典的推荐算法种类,在工业界应用广泛,它的优点很多,模型通用性强,不需要太多对应数据领域的专业知识,工程实现简单,效果也不错。这些都是它流行的原因。

​ 当然,协同过滤也有些难以避免的难题,比如令人头疼的“冷启动”问题,我们没有新用户任何数据的时候,无法较好的为新用户推荐物品。同时也没有考虑情景的差异,比如根据用户所在的场景和用户当前的情绪。当然,也无法得到一些小众的独特喜好,这块是基于内容的推荐比较擅长的。

3. 基于内容的推荐算法(Content-based Filter,CB)

​ CB的思想是这样的:根据用户在过去喜欢的内容,为用户推荐与其过去喜欢内容相似的内容。CB的关键在于内容相似性的度量,这是CB在运用过程中的核心。CB的过程一般包括以下三步:

  1. 内容表征(Item Representation):为每个item抽取出一些特征来表示此item。

  2. 特征学习(Profile Learning):你用一个用户过去喜欢(不喜欢)的item的特征数据,来学习出用户的喜好特征(profile),构建出模型。

  3. 生成推荐列表(Recommendation):通过比较上一步得到的用户特征(profile)与候选item的特征,为此用户推荐一组相关性最大的item。

CB的缺点

  1. 无法挖掘出用户的潜在兴趣(假设用于以前只留下了看历史文章的记录,那么CB就会一直给用户推荐历史文章,而无法发现用户可能更加喜欢看娱乐文章)

  2. 无法为新用户产生推荐(即“冷启动”问题)。

CB小结

​ 不论是CF还是CB都有自己的局限性,目前的大部分推荐系统都是以CB以外的算法为主(比如CF),以CB为辅来组成一个混合推荐的系统。

4.基于人口统计信息的推荐算法(Demographic-based,DB)

​ 基于人口统计学的推荐算法应该是最容易实现的推荐算法。因其仅使用用户的基本信息,比如年龄、性别等来衡量用户的相似性,然后便将和用户相似的其余用户偏好的物品推荐给当前用户了。

DB的优点

  1. 因为DB使用用户的基本信息数据,不涉及用户对物品的历史喜好,所以对于新用户来说,能够根据基本信息马上进行推荐,不存在CF和CB中的“冷启动”问题。

  2. 因为DB不依赖于任何物品信息,所以可以“领域独立”,意味着DB在不同物品领域均可使用。

DB的缺点

  1. DB仅仅基于用户的基本信息,推荐准确性不足,对于音乐、电影等对象的推荐,不能够起到很好的推荐效果。

  2. 用户的基本信息不好获取,比如年龄等。(在一些情况下,需要建模来获取用户的基本信息)

5.混合推荐算法(Hybrid Recommender,HR)

​ 上面提到的CF、CB、DB以及另外的一些推荐算法存在的普遍问题就是优缺点并存,优缺点明显。为了能够获得一个更好的推荐算法,将许多的推荐算法融合起来作为一个整体来进行推荐是一个自然的想法。多种推荐算法融合好后的HR在理论上不会比任何一种单一的推荐算法差,但是HR的复杂度也会相应提高,所以在实际的使用中,使用HR进行推荐,并没有CF那么普遍。

6.成长路线

如何成为一名推荐系统工程师

文中如有错误或不足还望不吝指出,十分感谢。——keep250

参考资料

  1. 推荐引擎算法学习导论

  2. CF算法入门demo Java版

  3. Wikipedia: Recommender system

  4. 协同过滤推荐算法总结

  5. Latent Factor算法的实际应用——网易云音乐

  6. 知乎问答-协同过滤和基于内容推荐有什么区别?

  7. CB算法:基于内容的推荐算法的基本原理

  8. 推荐系统之基于人口统计学的推荐

  9. 如何成为一名推荐系统工程师

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358